目的:在百度贴吧输入关键字和要查找的起始结束页,获取帖子里面楼主所发的图片思路:获取分页里面的帖子链接列表获取帖子里面楼主所发的图片链接列表保存图片到本地注意事项:问题:在谷歌浏览器使用xpathhelper插件时有匹配结果,但在程序里面使用python内带的xpath匹配却为空的原因。原因:不同服务器会对不同的浏览器返回不同的数据,导致在谷歌浏览器看到的和服务器返回的有区别解决方法:使用IE浏览器的User-agenet,而且越老的版本,报错几率相对越小
系统 2019-09-27 17:57:03 1919
爬虫的概念:爬虫就是获取网页并提取和保存信息的自动化程序爬虫的分类:主要有四类:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫爬虫的流程:常见的几种爬虫问题:主要有五类:静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用常见的爬虫框架:pyspider框架,Scrapy框架分布式爬虫:在多台机器上运行爬虫程序爬虫的一些常用"库":解析库:lxml;BeautifulSoup;pyquery;tesserocr请求库:r
系统 2019-09-27 17:56:05 1919
python读取excel文件生成sql文件实例详解学了python这么久,总算是在工作中用到一次。这次是为了从excel文件中读取数据然后写入到数据库中。这个逻辑用java来写的话就太重了,所以这次考虑通过python脚本来实现。在此之前需要给python添加一个xlrd模块,这个模块是专门用来操作excel文件的。在mac中可以通过easy_installxlrd命令实现自动安装模块importxdrlib,sysimportxlrddefopen_e
系统 2019-09-27 17:55:37 1919
首先在火狐浏览器上登录知乎,然后使用火狐浏览器插件Httpfox获取GET请求的Cookie,这里注意使用状态值为200(获取成功)的某次GET.将Cookies复制出来,注意这一行非常长,不要人为添加换行符。而且Cookie中使用了双引号,最后复制到代码里使用单引号包起来。使用下边代码检验是否是模拟了登录的用户的请求:importrequestsimportreheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.
系统 2019-09-27 17:55:03 1919
一、内置函数下面简单介绍几个:1.abs()求绝对值2.all()如果iterable的所有元素都为真(或者如果可迭代为空),则返回True3.any()如果iterable的任何元素为真,则返回True。如果iterable为空,则返回False4.callable()如果object参数出现可调,则返回True,否则返回False5.divmod()以两个(非复数)数字作为参数,并在使用整数除法时返回由商和余数组成的一对数字。对于混合操作数类型,二进制
系统 2019-09-27 17:54:34 1919
大家在学习Python的时候,有人会问“Python要学到什么程度才能出去找工作”,对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来,一般都不会有什么问题,而对于自学Python来说,那就比较难掌握,冒然出去找工作非常容易受打击,从而失去学习Python的信心。接下来我们就来看看Python学到什么程度才算是真正学会Python可以去一展身手。一、确立目标、了解需求做什么事情都要先确定好目标,才不至于迷失方向
系统 2019-09-27 17:54:31 1919
环境:编辑工具:浏览器:有问题可以联系qq:1776376537安装xlrd安装DDT一分析1目录结构2导入包二代码importxlrdclassExcelUtil():def__init__(self,excelPath,sheetName="Sheet1"):self.data=xlrd.open_workbook(excelPath)self.table=self.data.sheet_by_name(sheetName)#获取第一行作为key值se
系统 2019-09-27 17:54:09 1919
1.基础内容[](中括号)用于描述正则表达式中的字符集,可以通过向字符集内部输入字符来自定义匹配的内容。importreregex1=re.compile('[ABC]')message1="Hello.ThisisABCclub.Amanwillserveyouthen."print(regex1.findall(message1))输出:[‘A’,‘B’,‘C’,‘A’]正则表达式会根据中括号里的任意一个字符进行匹配。如果想要匹配的字符很多,例如所有的
系统 2019-09-27 17:52:45 1919
本文实例为大家分享了python查找重复图片并删除的具体代码,供大家参考,具体内容如下和网络爬虫配套的,也可单独使用,从网上爬下来的图片重复太多,代码支持识别不同尺寸大小一致的图片,并把重复的图片删除,只保留第一份。#-*-coding:utf-8-*-importcv2importnumpyasnpimportos,sys,typesdefcmpandremove2(path):dirs=os.listdir(path)dirs.sort()iflen(
系统 2019-09-27 17:51:12 1919
感觉这种理解有问题,举个例子来说。classDog(object):name='dog'definit(self):self.age=18d1=Dog()d2=Dog()这里有两个实例d1,d2吧。d1.name#输出dogd2.name#输出dogd1.name='abc'd1.name#输出abcd2.name#输出dogDog.name#输出dog原因是d1.name输出dog不是因为这个实例共享了类属性,而是因为这个实例没有dog属性,所以pyth
系统 2019-09-27 17:51:12 1919