模块安装:数据操作用到的模块pymysql,需要通过pipinstallpymysql进行安装。redis操作用的模块是redis,需要通过pipinstallredis进行安装。检验是否安装成功:进入到Python命令行模式,输入importpymysql、importredis,无报错代表成功;mysql操作方法如下:查询数据:fetchone、fetchmany(n)、fetchall()importpymysql#建立mysql连接,ip、端口、用
系统 2019-09-27 17:54:49 1707
前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy的设置urllib2默认会使用环境变量http_proxy来设置HTTPProxy。如果想在程序中明确控制Proxy而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:复制代码代码如下:importurllib2enable_proxy=Trueproxy_handler=urllib2.ProxyHandler({"http":'ht
系统 2019-09-27 17:54:48 1707
《Python3爬虫、数据清洗和可视化实战》零一韩要宾黄园园著第九章:pandas数据清理9.1数据读写、选择、整理和描述Pandas是用来数据清洗的Python库,由于它的依赖库很多,所以建议还是下载anaconda,里面内置了相关库。9.1.1读取CSV数据df=pd.read_csv(“csv_path”,delimiter=”,”,encoding=””)参数说明:“csv_path”,CSV文件路径;delimiter=”,”:分隔方式;enco
系统 2019-09-27 17:54:37 1707
本文实例讲述了在Python中模仿POSTHTTP数据及带Cookie提交数据的实现方法,分享给大家供大家参考。具体实现方法如下:方法一如果不使用Cookie,发送HTTPPOST非常简单:复制代码代码如下:importurllib2,urllibdata={'name':'www','password':'123456'}f=urllib2.urlopen(url='//www.jb51.net/',data=urllib.urlencode(data)
系统 2019-09-27 17:54:37 1707
正则表达式什么是正则表达式?正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式可以干什么?快速高效的查找与分析字符串进行有规律查找比对字符串,也叫:模式匹配具有查找、比对、匹配、替换、插入
系统 2019-09-27 17:54:35 1707
前提:python3.4windows作用:通过搜狗的微信搜索接口http://weixin.sogou.com/来搜索相关微信文章,并将标题及相关链接导入Excel表格中说明:需xlsxwriter模块,另程序编写时间为2017/7/11,以免之后程序无法使用可能是网站做过相关改变,程序较为简单,除去注释40多行。正题:思路:打开初始Url-->正则获取标题及链接-->改变page循环第二步-->将得到的标题及链接导入Excel爬虫的第一步都是先手工操作
系统 2019-09-27 17:54:31 1707
【摘要】在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面,最方便快捷的抓取方法就是通过Selenium。本节中,我们就用Selenium来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到MongoDB。1.本节目标本节中,我们
系统 2019-09-27 17:54:29 1707
目录工作原理python实现算法实战约会对象好感度预测故事背景准备数据:从文本文件中解析数据分析数据:使用Matplotlib创建散点图准备数据:归一化数值测试算法:作为完整程序验证分类器使用算法:构建完整可用的系统手写识别系统准备数据:将图像转换为测试向量测试算法:使用k-近邻算法识别手写数字小结附录工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新
系统 2019-09-27 17:54:29 1707
本文实例讲述了python函数的缺省参数使用注意事项。分享给大家供大家参考,具体如下:python的函数支持4种形式的参数:分别是必选参数、缺省参数、可变长参数、关键字参数;而且参数的书写顺序也是又一定规定的,顺序如下deffun(param,default_params,arbitrary_params,keyword_param)下面针对缺省型参数分析一些注意事项先定义这样子一个函数deftest_fun(a=[]):a.append('a')prin
系统 2019-09-27 17:54:28 1707
综述本系列文档用于对Python爬虫技术的学习进行记录总结。Python版本是3.7.4urllib库介绍它是Python内置的HTTP请求库,也就是说我们不需要额外安装即可使用,它包含四个模块(主要对前三个模块进行学习):request:它是最基本的HTTP请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入URL还有额外的参数,就可以模拟实现这个过程了。error:异常处理模块,如果出现请求错误,我们可以捕
系统 2019-09-27 17:54:27 1707