今天主要是来说一下怎么可视化来监控你的爬虫的状态。相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。1.成品图这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的
系统 2019-09-27 17:50:52 2092
UnicodeDecodeError:'gbk'codeccan'tdecodebyte0x80inposition128:illegalmultibytesequence说到底是open()使用方法。原本程序是这样的:(重点看第4行)fromtkinterimport*importosdefopenFile():f=open('D:\Pythoncharmprojccts\SC\main_window.py',mode='r')whileTrue:dat
系统 2019-09-27 17:50:35 2092
最近,我们老大要我写一个守护者程序,对服务器进程进行守护。如果服务器不幸挂掉了,守护者能即时的重启应用程序。上网Google了一下,发现Python有很几个模块都可以创建进程。最终我选择使用subprocess模块,因为在Python手册中有这样一段话:Thismoduleintendstoreplaceseveralother,oldermodulesandfunctions,suchas:os.system、os.spawn*、os.popen*、po
系统 2019-09-27 17:50:33 2092
最简单的网页取源(不用模拟浏览器的情况)1importrequests2defgetHTML(url):3try:4r=requests.get(url,timeout=30)5r.raise_for_status()6r.encoding='utf-8'7returnr.text8except:9return""10url="http://baidu.com"11print(getHTML(url))
系统 2019-09-27 17:50:19 2092
IDLE中的快捷键:Ctrl+[、Ctrl+]缩进、取消缩进代码Alt+3、Alt+4注释、取消注释当前代码行Alt+NAlt+P下一条命令和上一条命令(注:命令即历史输入内容)Alt+/提示代码中出现过的字符串,自动补齐,多按几次可以循环选择Alt+M打开模块代码,先选中模块,然后按下此快捷键,会帮你打开模块的Py源码供浏览Alt+C打开类浏览器,方便在源码文件中的各个方法体之间切换Alt+FP打开路径浏览器,方便选择导入包进行查看浏览F1打开Pytho
系统 2019-09-27 17:50:15 2092
自动化一直是测试圈中的热聊,也是大家追求的技术方向。在测试中,往往回归测试也是测试人员的“痛点”。对于迭代慢、变更少的功能,就能用上自动化来替代人工回归,减轻工作量。问题在分享环境搭建之前,先抛出我的一个疑问吧。app启用时,分不同的场景:1.首次安装启用,有欢迎页;2.非首次启用,直接进入到登录页;3.配置了推荐展示时,启用app,会先展示推荐内容,才进入到登录页。不同场景对应的activity都是不同的,我目前处理办法是,写了个输入函数,加了个if判断
系统 2019-09-27 17:49:53 2092
#登录认证#加密-->解密#摘要算法#两个字符串:#importhashlib#提供摘要算法的模块md5=hashlib.md5()md5.update(b'123456')print(md5.hexdigest())#aee949757a2e698417463d47acac93df#不管算法多么不同,摘要的功能始终不变#对于相同的字符串使用同一个算法进行摘要,得到的值总是不变的#使用不同算法对相同的字符串进行摘要,得到的值应该不同#不管使用什么算法,ha
系统 2019-09-27 17:49:08 2092
摘要在这篇文章里,我将以反模式的角度来直接讨论Django的低级ORM查询方法的使用。作为一种替代方式,我们需要在包含业务逻辑的模型层建立与特定领域相关的查询API,这些在Django中做起来不是非常容易,但通过深入地了解ORM的内容原理,我将告诉你一些简捷的方式来达到这个目的。概览当编写Django应用程序时,我们已经习惯通过添加方法到模型里以此达到封装业务逻辑并隐藏实现细节。这种方法看起来是非常的自然,而且实际上它也用在Django的内建应用中。>>>
系统 2019-09-27 17:49:03 2092
词云是一种非常漂亮的可视化展示方式,正所谓一图胜过千言万语,词云在之前的项目中我也有过很多的使用,可能对于我来说,一种很好的自我介绍方式就是词云吧,就像下面这样的:个人觉还是会比枯燥的文字语言描述性的介绍会更吸引人一点吧。今天不是说要怎么用词云来做个人介绍,而是对工作中使用到比较多的词云计较做了一下总结,主要是包括三个方面:1、诸如上面的简单形式矩形词云2、基于背景图片数据来构建词云数据3、某些场景下不想使用类似上面的默认的字体颜色,这里可以自定义词云的字
系统 2019-09-27 17:48:59 2092
【摘要】本节中,我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了。1.实例引入说了这么多,可能我们对它到底是个什么还是比较模糊,下面就用几个实例来看一下正则表达式的用法。打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的
系统 2019-09-27 17:48:57 2092