一般用xlml但遇到过解析出来的内容不一样。有误用另一种方法得到正确的,有误应该只是极少问题。这种方案备用html=browser.page_sourcehtm=bs(html,'html.parser')
系统 2019-09-27 17:53:29 1892
Python标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如urllib2这个HTTP客户端库。这里总结了一些urllib2库的使用细节。1Proxy的设置urllib2默认会使用环境变量http_proxy来设置HTTPProxy。如果想在程序中明确控制Proxy,而不受环境变量的影响,可以使用下面的方式复制代码代码如下:importurllib2enable_proxy=Trueproxy_handler=url
系统 2019-09-27 17:53:21 1892
python连接mysql的客户端importpymysql#导入模块conn=pymysql.connect(host='127.0.0.1',#主机模块port=3306,#端口号user='root',#用户名password='123',#密码database='db',#需要连接的库charset='utf8'#指定编码utf8)cursor=conn.cursor()#获取游标#cursor=conn.cursor(pymysql.cursor
系统 2019-09-27 17:53:19 1892
这篇博客做一个爬虫的实例今天刚看到一个新闻,在7月26日上映的《哪吒之魔童降世》,密钥第二次延期至10月26日。截止至9月17日,《哪吒之魔童降世》票房已超49亿票房,在豆瓣上对该电影的评价有好有坏。说实话,博主看了这个电影真的觉得蛮不错的,因此把短评中的差评爬取下来,看下差评包括哪些方面。目录一、BeautifulSoup二、xpath三、正则表达式一、BeautifulSoup首先需要了解下差评文字内容在哪些标签下:进入豆瓣该电影短评界面,检查元素:可
系统 2019-09-27 17:53:05 1892
基于TCP协议的套接字编程实现电话沟通为例,这里传递的是字符,可以自己尝试去发送一个文件#服务端importsocket#1.符合TCP协议的手机server=socket.socket(socket.AF_INET,socket.SOCK_STREAM)#TCP#2.绑定手机号一个服务器,我们自己的电脑作为服务器的话,用自己的IP地址server.bind(('127.0.0.1',8000))#127.0.0.1代表本地#server.bind(('1
系统 2019-09-27 17:53:04 1892
本文章采用的是Qt4,是python(x,y)套件中集成的,为啥不集成Qt5呢,懒得装啊:)正文:首先看成品:这个程序的功能是输入原价和降价的百分比,计算出最后的价格。设计器部分然后就是开发阶段了,首先在QtDesigner中建立一个窗体,大概像图片中的样子,然后将控件都拖进去其中,“原价是多少啊”,“绿色的标标”这些文字类的控件是QLabel,第一个框框是QTextEdit,第二个标标是QDoubleSpinBox,或者使用QSpinBox都行,两者主要
系统 2019-09-27 17:52:48 1892
Git是编程中的基本技能之一,互联网公司几乎都在使用Git进行协作编程,昨天还有位禅友在微信上专门告诉我说星期五面试的时候刚好被问到Git,幸好在这几天学了一下。Git并不难,但会Git至少可以说明一个人的学习能力或者说对技术的嗅觉能跟上主流,如果面试问你GitHub是什么都不知道,面试官就会对你打一个大的问号。简单点评这一道题。在使用for循环迭代一个列表时,有时我们需要获取列表中每个元素所在的下标位置是多少,例如numbers=[10,29,30,41
系统 2019-09-27 17:52:23 1892
看python社区大妈组织的内容里边有一篇讲python内存优化的,用到了__slots__。然后查了一下,总结一下。感觉非常有用python类在进行实例化的时候,会有一个__dict__属性,里边有可用的实例属性名和值。声明__slots__后,实例就只会含有__slots__里有的属性名。#coding:utf-8classA(object):x=1def__init__(self):self.y=2a=A()printa.__dict__print(
系统 2019-09-27 17:52:11 1892
2016年1月,机缘巧合下我出版了《Selenium2自动化测试实战--基于python语言》这本书,当时写书的原因是,大部分讲Selenium的书并不讲编程语言和单元测试框,如果想在项目中使用Selenium,几乎离不开编程语言和单元测试框架,难道你只用SeleniumIDE去录制/回放脚本么?没想到受到许多测试人员的欢迎,我会时常去看网上的书评。大多是感谢的留言,书的销量也印证了这一点,当然,也有批评和建议。在此,表示感谢。随着,我对Selenium自
系统 2019-09-27 17:51:40 1892
Python爬虫,使用BeautifulSoup可以轻松解析页面结果,下面是使用该方法爬取boss页面的职位信息:包括职位名称、薪资、地点、公司名称、公司融资情况等信息。通过这个示例可以轻松看到BeautifulSoup的使用方法。1、爬取boss直聘的职位信息importrequestsfrombs4importBeautifulSoupfrommiddlewaresimportget_random_proxy,get_random_agentimpor
系统 2019-09-27 17:51:39 1892