- 军军小站|张军博客
搜索到与相关的文章
Python

【Python3网络爬虫开发实战】3.3-正则表达式

【摘要】本节中,我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了。1.实例引入说了这么多,可能我们对它到底是个什么还是比较模糊,下面就用几个实例来看一下正则表达式的用法。打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的

系统 2019-09-27 17:48:57 1897

Python

python基础学习笔记(四)

python基础学习笔记(四)2013-04-1823:59虫师阅读(...)评论(...)编辑收藏列表本节继续讨论列表不同元组和字符串的地方:列表是可变的(mutable)----可以改变列表的内容,并且列表有很多有用的、专门的方法。List函数可以将一个字符串拆分成列表。>>>list('chongshi')['c','h','o','n','g','s','h','i']改变列表:元素赋值例如,我们想对一个列表中的某个元素赋值。>>>x=[1,2,3

系统 2019-09-27 17:48:57 1897

Python

即学即用的 30 段 Python 实用代码

Python是目前最流行的语言之一,它在数据科学、机器学习、web开发、脚本编写、自动化方面被许多人广泛使用。它的简单和易用性造就了它如此流行的原因。在本文中,我们将会介绍30个简短的代码片段,你可以在30秒或更短的时间里理解和学习这些代码片段。1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了set()属性,该属性将会从列表中删除重复的元素。defall_unique(lst):returnlen(lst)==len(set(lst)

系统 2019-09-27 17:48:34 1897

Python

Python解析命令行读取参数--argparse模块使用方法

在多个文件或者不同语言协同的项目中,python脚本经常需要从命令行直接读取参数。万能的python就自带了argprase包使得这一工作变得简单而规范。PS:optparse包是类似的功能,只不过写起来更麻烦一些。如果脚本很简单或临时使用,没有多个复杂的参数选项,可以直接利用sys.argv将脚本后的参数依次读取(读进来的默认是字符串格式)。比如如下名为test.py的脚本:importsysprint"Inputargumentis%s"%(sys.a

系统 2019-09-27 17:48:12 1897

Python

Python包、模块、类以及遇到的问题

最近敲代码的时候主要遇到两大问题,第一个是构造自己包的时候找不到package。构造自己package谈两条经验,有助于解决这个问题。1自己构造包的名称尽量不要和Python自带的包重名,起的名字个性化一点。要不然出的bug都不知道错在哪2只要打算把这个文件夹当成一个包,就一定要在这个文件夹同一目录下新建一个__init__.py文件(内容可以为空)一般来说注意这两点,构建包就不成问题。在包的文件夹里面的.py文件称之为模块(文件名就是模块名),当然包里也

系统 2019-09-27 17:48:06 1897

Python

python+selenium 对于iframe的切入切出

#coding=utf-8fromseleniumimportwebdriverfromselenium.webdriver.common.action_chainsimportActionChainsfromselenium.webdriver.common.keysimportKeysimporttimeimportosmydriver=webdriver.Firefox()mydriver.get("http://www.126.com/")time

系统 2019-09-27 17:47:40 1897

Python

python爬虫爬去百度图片

下面程序能够爬取百度图片一个网页里面的所以图片,值得关注的是匹配字段,正则表达式要写正确,虽然匹配成功的但是爬取的图片还是较少,下篇我会采取get方法来请求更多图片来爬取。importurllib.requestimportreimporttimedefopen_url(url):req=urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0(WindowsNT6.1;WOW6

系统 2019-09-27 17:47:28 1897

Python

python实现监控linux性能及进程消耗性能的方法

本文以实例形式实现了python监控linux性能以及进程消耗性能的方法,具体实现代码如下:#-*-coding:utf-8-*-"""CreatedonTueJun1010:20:132014@author:lifeix"""fromcollectionsimportOrderedDictimporttimeimportosdefcpuinfo():lines=open('/proc/stat').readlines()forlineinlines:ln

系统 2019-09-27 17:47:12 1897

Python

Python字典推导式将cookie字符串转化为字典解析

cookie:PHPSESSID=et4a33og7nbftv60j3v9m86cro;Hm_lvt_51e3cc975b346e7705d8c255164036b3=1561553685;Hm_lpvt_51e3cc975b346e7705d8c255164036b3=1561553685首先分析一下浏览器中cookie的结构基本上是:key=value;key=value;key=value其中key=value之间用一个分号和一个空格分开首先写一下不

系统 2019-09-27 17:47:05 1897

Python

自己编程中遇到的Python错误和解决方法汇总整理

开个贴,用于记录平时经常碰到的Python的错误同时对导致错误的原因进行分析,并持续更新,方便以后查询,学习。知识在于积累嘛!微笑+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++错误:复制代码代码如下:>>>deff(x,y):printx,y>>>t=('a','b')>>>f(t)Traceback(mostrecentcalllast):File"",line1,inf(t)Typ

系统 2019-09-27 17:45:53 1897