搜索到与相关的文章
Python

python爬虫学习之爬取某图片网站

0x00:使用xpath进行网页解析#coding:utf-8importrequestsimportosimportrefromlxmlimportetreeimporttimedefget_title(title):#获取标题,创建文件path=r"./Pic/"+titleifos.path.exists(path):#文件夹存在,返回returnpathelse:os.makedirs(path)#创建空文件夹returnpathdefpic_ge

系统 2019-09-27 17:48:15 1929

Python

python 字符串追加实例

通过一个for循环,将一个一个字符追加到字符串中:方法一:string=''str=u"追加字符"foriinrange(len(str)):string+=str[i]printstring显示结果:追加字符方法二:string=[]str=u"1234"foriinrange(len(str)):string.append(str[i])printstring显示结果:[u'1',u'2',u'3',u'4']以上这篇python字符串追加实例就是小编

系统 2019-09-27 17:48:12 1929

Python

Python Deque 模块使用详解

创建Deque序列:fromcollectionsimportdequed=deque()Deque提供了类似list的操作方法:d=deque()d.append('1')d.append('2')d.append('3')len(d)d[0]d[-1]输出结果:3'1''3'两端都使用pop:d=deque('12345')len(d)d.popleft()d.pop()d输出结果:5'1''5'deque(['2','3','4'])我们还可以限制d

系统 2019-09-27 17:47:59 1929

Python

python实现ip代理池功能示例

本文实例讲述了python实现ip代理池功能。分享给大家供大家参考,具体如下:爬取的代理源为西刺代理。用xpath解析页面用telnet来验证ip是否可用把有效的ip写入到本地txt中。当然也可以写入到redis、mongodb中,也可以设置检测程序当代理池中的ip数不够(如:小于20个)时,启动该脚本来重新获取ip,本脚本的代码也要做相应的改变。#!/usr/bin/envpython#-*-coding:utf-8-*-#@Version:1.0#@T

系统 2019-09-27 17:47:57 1929

Python

python处理文本文件实现生成指定格式文件的方法

本文所述实例为Python处理文本文件并生成指定格式文件的方法,具体实现功能代码如下所示:importosimportsysimportstring#以指定模式打开指定文件,获取文件句柄defgetFileIns(filePath,model):print("打开文件")print(filePath)print(model)returnopen(filePath,model)#获取需要处理的文件defgetProcFile(path):returnos.l

系统 2019-09-27 17:47:04 1929

Python

python函数

函数函数是什么函数就是一个功能的封装,然后可以可以被多次调用的代码块函数定义函数定义需要def关键字,函数的参数不是必须的,返回值也是,要是有参数一定要传参数要是return没有返回值,或者连return都没有的,返回的是None值完整的函数包括函数名,参数,以及函数的实现语句,缩进属于函数体,返回值是用来保存计算结果的函数定义的规则函数代码以def开头,后接函数名加上()传入的参数和自变量必须放在圆括号中间,自定义的参数也放在圆括号内函数的起始用:并且用

系统 2019-09-27 17:46:46 1929

Python

【Python练习圣典】heapq高级应用

1.从集合中取出最大或最小N个元素importheapqnums=[1,8,2,23,7,-4,18,23,42,37,2]print(heapq.nlargest(3,nums))#输出[42,37,23]print(heapq.nsmallest(3,nums))#输出[-4,1,2]也支持其他参数支持更为复杂的数据结构portfolio=[{'name':'IBM','shares':100,'price':91.1},{'name':'AAPL',

系统 2019-09-27 17:46:30 1929

Python

Python 如何访问外围作用域中的变量

在表达式中引用变量时,Python会按照如下的顺序遍历各个作用域,寻找该变量:当前函数作用域任何外围作用域(比如包含当前函数的其他函数)global作用域,即代码所在的模块的作用域如果上述作用域内都找不到变量,就会报NameError异常。但是对变量赋值时,规则会有所不同。如果当前作用域变量已存在,那么其值会被替换。如果不存在,则会视为在当前作用域定义新变量,而不是向外围作用域中寻找。如下函数deffunction():flag=Truedefhelper

系统 2019-09-27 17:46:14 1929

Python

在SAE上部署Python的Django框架的一些问题汇总

花了些工夫将碎片网部署到了SAE,中途遇到各类问题。感觉SAE看上去很美,实际上却并不是太成熟(至少python版如此)。下面记录下我遇到的一些主要问题以及解决方法。django版本问题Django1.4都即将发布了,SAE平台自带的SAE版本依旧为1.2x。为使用django1.3版本,你需上传自己的django。具体做法可参考SAE手册中的runtime.html#virtualenv日志模块出错最先遇到的是日至模块的问题。错误显示AdminEmail

系统 2019-09-27 17:46:12 1929

Python

python爬虫---实现项目(四) 用BeautifulSoup分析新浪新闻

这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。关于的爬虫的博客已经越来越多,使用到的技术也越来越多,后期我还会持续写下去,大概从几个角度去写,多线程爬取(提高效率),如何更好的做到爬取数据(破解反扒)。用redis管理多线程和代理

系统 2019-09-27 17:45:54 1929