- 军军小站|张军博客
拥有Python标签的文章
Python

初学Python之爬虫的简单入门

初学Python之爬虫的简单入门一、什么是爬虫?1.简单介绍爬虫爬虫的全称为网络爬虫,简称爬虫,别名有网络机器人,网络蜘蛛等等。网络爬虫是一种自动获取网页内容的程序,为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术,将互联网中丰富的网页信息保存到本地,形成镜像备份。我们熟悉的谷歌、百度本质上也可理解为一种爬虫。如果形象地理解,爬虫就如同一只机器蜘蛛,它的基本操作就是模拟人的行为去各个网站抓取数据或返回数据。2.爬虫的分类网络爬虫一般分为传统爬虫和聚

系统 2019-09-27 17:56:55 2103

Python

Python 20行简单实现有道在线翻译的详解

简介主要是尝试简单的使用pyhton的爬虫功能,于是使用有道进行尝试,并没有进行深入的诸如相关api的调用。以下是需要的POST数据代码以下是相关部分的代码:importurllib.requestimporturllib.parseimportjsoncontent=input('需要翻译的内容:')#翻译内容url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&

系统 2019-09-27 17:55:42 2103

Python

Python爬取Boss直聘,获取全国Python薪酬榜

深感抱歉本来这篇文章应该是在昨天发的,可是电脑出了问题蓝屏了。晚上回来重装了系统,结果还是搞到了现在。今天想和大家聊聊Python与爬虫python之所以能迅速风靡全国,和大街小巷各种的培训机构脱不开关系。一会pythonAI未来以来,一会儿4个月培养人工智能与机器学习顶尖人才,更有甚者什么一周成就爬虫分析师…我这一把年纪了,胆子小只敢在自己的公众号里说说。至于出去了,你们该实力互吹、生猛造势的,我看看就好不说话。网上经常看到爬虫的文章,什么爬了几十万数据

系统 2019-09-27 17:52:54 2103

Python

Python中使用md5sum检查目录中相同文件代码分享

复制代码代码如下:"""ThismodulecontainscodefromThinkPythonbyAllenB.Downeyhttp://thinkpython.comCopyright2012AllenB.DowneyLicense:GNUGPLv3http://www.gnu.org/licenses/gpl.html"""importosdefwalk(dirname):"""Findsthenamesofallfilesindirnameand

系统 2019-09-27 17:52:36 2103

Python

Python面向对象中特殊变量main,name以及关于self的一系列问题

回过头去敲循环语句的时候,我又碰到了问题:var=1whilevar==1:...num=int(input("输入一个数字:"))...print("你输入的数字是:",num)...输入一个数字:4你输入的数字是:4输入一个数字:7你输入的数字是:7输入一个数字:7.8Traceback(mostrecentcalllast):File"",line2,inValueError:invalidliteralforint()withbase10:'7.8

系统 2019-09-27 17:50:53 2103

Python

Python字典创建 遍历 添加等实用基础操作技巧

字段是Python是字典中唯一的键-值类型,是Python中非常重要的数据结构,因其用哈希的方式存储数据,其复杂度为O(1),速度非常快。下面列出字典的常用的用途.一、字典中常见方法列表代码如下:D.clear()#移除D中的所有项D.copy()#返回D的副本D.fromkeys(seq[,val])#返回从seq中获得的键和被设置为val的值的字典。可做类方法调用D.get(key[,default])#如果D[key]存在,将其返回;否则返回给定的默

系统 2019-09-27 17:50:45 2103

Python

Python多进程爬取人人单词数据

基于Pythonrequests的人人词典数据爬虫,爬取站点http://www.91dict.com爬取内容包含:单词、单词词性及翻译、单词发音、单词例句剧照、单词例句及翻译、单词例句发音总共数据:单词53189个,例句发音文件及图片文件共10G左右,20M带宽不到一个小时就能爬完,我测试是这样的。。。关于单词发音,可自行添加爬取爬取内容1爬取内容2例句发音例句剧照Python版本Python3+,建议Python3.6requirements.txtr

系统 2019-09-27 17:49:44 2103

Python

Python3 学习之路~之集合详解

集合(set)是一个无序的不重复元素序列。可以使用大括号{}或者set()函数创建集合,注意:创建一个空集合必须用set()而不是{},因为{}是用来创建一个空字典。创建格式:basket={'apple','orange','apple','pear','orange','banana'}print(basket)集合的基本操作1添加元素1.1语法格式如下:s.add(x)thisset=set(("Google","Runoob","Taobao"))

系统 2019-09-27 17:49:39 2103

Python

python爬取百度贴吧前1000页内容(requests库面向对象思想实现)

此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数kw首先创建类,写好__init__方法,run方法,__init__方法里先可以直接写passrun方法里大概整理一下整体的思路构造url列表,因为要爬取1000页,每页需对应一个url遍历发送请求,获取响应保存将可封装的步骤封装到单独的方法,所以这里又增加了

系统 2019-09-27 17:46:58 2103

Python

对python中的*args与**kwgs的含义与作用详解

在定义函数的时候参数通常会使用*args与**kwgs,形参与实参的区别不再赘述,我们来解释一下这两个的作用。*args是非关键字参数,用于元组,**kw是关键字参数例如下面的代码deffoo(*args,**kwargs):print'argsis',argsprint'kwargsis',kwargsfoo(1,2)foo(k=1,w=2,a=3,r=4,g=5,s=6)foo(1,2,a=1,b=2,c=2)foo('a',1,None,a=1,b=

系统 2019-09-27 17:45:52 2103

Python

浅谈Python单向链表的实现

链表由一系列不必在内存中相连的结构构成,这些对象按线性顺序排序。每个结构含有表元素和指向后继元素的指针。最后一个单元的指针指向NULL。为了方便链表的删除与插入操作,可以为链表添加一个表头。删除操作可以通过修改一个指针来实现。插入操作需要执行两次指针调整。1.单向链表的实现1.1Node实现每个Node分为两部分。一部分含有链表的元素,可以称为数据域;另一部分为一指针,指向下一个Node。classNode():__slots__=['_item','_n

系统 2019-09-27 17:37:36 2103

Python

Python科学计算(二)Pandans

1.Pandas简介Pandas是基于Numpy的一个开源Python库,被广泛用于快速分析数据,以及数据清洗和准备工作。Pandas中有两类重要的数据结构,就是序列Series和数据框DataFrame。2.Series和DataFrame数据结构importnumpyasnpimportpandasaspds1=pd.Series(np.array([1,2,3,4,5]))print(s1)print("***************")s2=pd.

系统 2019-09-27 17:57:14 2102

Python

python flask web服务实现更换默认端口和IP的方法

flaskweb后台启动后会发现默认是localhost127.0.0.1:5000如果需要修改,方便调试发布可以采用以下方式运行fromflaskimportFlaskfromflaskimportrequestapp=Flask(__name__)@app.route('/')defindex():user_agent=request.headers.get('User_Agent')return'user_agentis%s'%user_agenti

系统 2019-09-27 17:56:35 2102