【摘要】本节中,我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了。1.实例引入说了这么多,可能我们对它到底是个什么还是比较模糊,下面就用几个实例来看一下正则表达式的用法。打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的
系统 2019-09-27 17:48:57 1897
python基础学习笔记(四)2013-04-1823:59虫师阅读(...)评论(...)编辑收藏列表本节继续讨论列表不同元组和字符串的地方:列表是可变的(mutable)----可以改变列表的内容,并且列表有很多有用的、专门的方法。List函数可以将一个字符串拆分成列表。>>>list('chongshi')['c','h','o','n','g','s','h','i']改变列表:元素赋值例如,我们想对一个列表中的某个元素赋值。>>>x=[1,2,3
系统 2019-09-27 17:48:57 1897
python:如何将excel文件转化成CSV格式importpandasaspddata=pd.read_excel('123.xls','Sheet1',index_col=0)data.to_csv('data.csv',encoding='utf-8')将Excel文件转为csv文件的python脚本#!/usr/bin/envpython__author__="lrtao2010"'''Excel文件转csv文件脚本需要将该脚本直接放到要转换的E
系统 2019-09-27 17:48:54 1897
Python是目前最流行的语言之一,它在数据科学、机器学习、web开发、脚本编写、自动化方面被许多人广泛使用。它的简单和易用性造就了它如此流行的原因。在本文中,我们将会介绍30个简短的代码片段,你可以在30秒或更短的时间里理解和学习这些代码片段。1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了set()属性,该属性将会从列表中删除重复的元素。defall_unique(lst):returnlen(lst)==len(set(lst)
系统 2019-09-27 17:48:34 1897
在多个文件或者不同语言协同的项目中,python脚本经常需要从命令行直接读取参数。万能的python就自带了argprase包使得这一工作变得简单而规范。PS:optparse包是类似的功能,只不过写起来更麻烦一些。如果脚本很简单或临时使用,没有多个复杂的参数选项,可以直接利用sys.argv将脚本后的参数依次读取(读进来的默认是字符串格式)。比如如下名为test.py的脚本:importsysprint"Inputargumentis%s"%(sys.a
系统 2019-09-27 17:48:12 1897
最近敲代码的时候主要遇到两大问题,第一个是构造自己包的时候找不到package。构造自己package谈两条经验,有助于解决这个问题。1自己构造包的名称尽量不要和Python自带的包重名,起的名字个性化一点。要不然出的bug都不知道错在哪2只要打算把这个文件夹当成一个包,就一定要在这个文件夹同一目录下新建一个__init__.py文件(内容可以为空)一般来说注意这两点,构建包就不成问题。在包的文件夹里面的.py文件称之为模块(文件名就是模块名),当然包里也
系统 2019-09-27 17:48:06 1897
代码一:#!/usr/bin/python#-*-coding:utf-8-*-#encoding=utf-8importthreadingimportQueueimportsysimporturllib2importreimportMySQLdb##数据库变量设置#DB_HOST='127.0.0.1'DB_USER="XXXX"DB_PASSWD="XXXXXXXX"DB_NAME="xxxx"##变量设置#THREAD_LIMIT=3jobs=Que
系统 2019-09-27 17:47:49 1897
#coding=utf-8fromseleniumimportwebdriverfromselenium.webdriver.common.action_chainsimportActionChainsfromselenium.webdriver.common.keysimportKeysimporttimeimportosmydriver=webdriver.Firefox()mydriver.get("http://www.126.com/")time
系统 2019-09-27 17:47:40 1897
下面程序能够爬取百度图片一个网页里面的所以图片,值得关注的是匹配字段,正则表达式要写正确,虽然匹配成功的但是爬取的图片还是较少,下篇我会采取get方法来请求更多图片来爬取。importurllib.requestimportreimporttimedefopen_url(url):req=urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0(WindowsNT6.1;WOW6
系统 2019-09-27 17:47:28 1897
要爬取的网站不需要登陆,没有反爬机制,操作很简单首先安装需要的程序包pipinstallrequestspipinstallbeautifulsoup4pipinstallxlwt具体的实现类GetInfo.py#信息实体类classproduct_info(object):serios=''#存放商品系列productActualPrice=''#存放商品成交价productOldPrice=''#存放商品面价detailString=''#存放商品详情
系统 2019-09-27 17:47:27 1897