抓取动态的网页内容主要有两种办法,一种是通过开发者工具找到动态内容的接口,然后分析接口的参数和返回值来爬取网站的数据。另外一种是通过模拟浏览器来抓取数据。python的Selenium库就可以通过代码来模拟浏览器抓取数据。一、概述运行Selenium需要依赖于Python的selenium库,以及浏览器对应驱动器(WebDriver)。安装selenium库pipinstallselenium项目地址:https://pypi.org/project/se
系统 2019-09-27 17:47:10 1873
仔细研读后学习了三个函数:eval:计算字符串中的表达式exec:执行字符串中的语句execfile:用来执行一个文件需注意的是,exec是一个语句,而eval()和execfile()则是内建built-in函数。Python2.7.2(default,Jun122011,15:08:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinf
系统 2019-09-27 17:46:53 1873
学习Python的第一天,也是我第一次写博客的一天,不怎么会写博客,也不怎么会Python,也不怎么会写总结.在学Python的第一天发现自己脑子不是很好用,在学习过程中出现很多错误,错误锦集如下,哈哈哈哈,要加油.以后要注意不要再犯下面的错误了,不然以后在工作中很难独立完成,也容易出现很多错误,这样就不好了啊!!!下面是我的知识总结和错误总结,如果有IT大佬看见了,希望能指出我的不足之处,让我好改进改进,可以进步.======我======是======
系统 2019-09-27 17:46:07 1873
文|yangrq1018经常在腾讯视频上看电影,在影片库里有一个"豆瓣好评"板块。我一般会在这个条目下面挑电影。但是电影很多,又缺乏索引,只能不停地往下来,让js加载更多的条目。然而前面的看完了,每次找新的片就要拉很久。所以用爬虫将"豆瓣好评"里的电影都爬下来整理到一个表中,方便选片。项目地址:https://github.com/yangrq1018/vqq-douban-film依赖需要如下Python包:requestsbs4-Beautifulso
系统 2019-09-27 17:46:04 1873
这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。关于的爬虫的博客已经越来越多,使用到的技术也越来越多,后期我还会持续写下去,大概从几个角度去写,多线程爬取(提高效率),如何更好的做到爬取数据(破解反扒)。用redis管理多线程和代理
系统 2019-09-27 17:45:54 1873
Python实现文件的全备份和差异备份之前有写利用md5方式来做差异备份,但是这种md5方式来写存在以下问题:md5sum获取有些软连接的MD5值存在问题不支持对空目录进行备份,因为md5sum无法获取空目录的md5值权限的修改md5sum无法判断解决方案:利用文件的mtimectimemtime(Modifiedtime)是在写入文件时随文件内容的更改而更改的ctime(Createtime)是在写入文件、更改所有者、权限或链接设置时随Inode的内容更
系统 2019-09-27 17:45:28 1873
在介绍yield前有必要先说明下Python中的迭代器(iterator)和生成器(constructor)。一、迭代器(iterator)在Python中,for循环可以用于Python中的任何类型,包括列表、元祖等等,实际上,for循环可用于任何“可迭代对象”,这其实就是迭代器迭代器是一个实现了迭代器协议的对象,Python中的迭代器协议就是有next方法的对象会前进到下一结果,而在一系列结果的末尾是,则会引发StopIteration。任何这类的对象
系统 2019-09-27 17:38:45 1873
如果某类里没有__init__方法函数,通过类名字创建的实例对象为空,切没有初始化;如果有此方法函数,通常作为类的第一个方法函数,有点像C++等语言里的构造函数。classCa:def__init__(self,v):#注意前后各两个下划线self.name=vdefpr(self):print"a--->",self.nameia=Ca("Jeapedu")#本质调用的是__init__方法函数ia.pr()Ca.pr(ia)输出结果a--->Jeape
系统 2019-09-27 17:38:41 1873
简单记一下python中List的sort方法(或者sorted内建函数)的用法。List的元素可以是各种东西,字符串,字典,自己定义的类等。sorted函数用法如下:sorted(data,cmp=None,key=None,reverse=False)其中,data是待排序数据,可以使List或者iterator,cmp和key都是函数,这两个函数作用与data的元素上产生一个结果,sorted方法根据这个结果来排序。cmp(e1,e2)是带两个参数的
系统 2019-09-27 17:38:23 1873
easy_install卸载通过easy_install安装的模块可以直接通过easy_install-mPackageName卸载,然后删除\Python27\Lib\site-packages目录下的egg。setup.py卸载通过发行包附带的setup.py安装的模块,首选setup.py提供的uninstall选项。如果作者没有提供uninstall选项,则通过如下命令行手动卸载:首先获取安装过程中产生的文件:pythonsetup.pyinsta
系统 2019-09-27 17:38:18 1873