搜索到与相关的文章
Python

Python和perl实现批量对目录下电子书文件重命名的代码分享

经常会遇到下载的文件或电子书,名字中间都包含了一些网址信息,实际使用中由于名字太长不方便,下面的脚本使用正则表达式来对目录下的所有文件重命名:例如:修改前:[脚本之家]MacOSXforUnixGeeks[www.jb51.net].mobi修改后:MacOSXforUnixGeeks.mobipython代码如下:复制代码代码如下:importosimportredefrename_dir(dir,regex,f):ifnotos.path.isdir(

系统 2019-09-27 17:54:13 2220

Python

python base64 decode incorrect padding

python的base64.decodestring方法做base64解码时报错:复制代码代码如下:Traceback(mostrecentcalllast):File"/export/www/outofmemory.cn/controllers/user.py",line136,indecryptPasswordencryptPwd=base64.b64decode(encryptPwd)File"/usr/lib/python2.7/base64.py

系统 2019-09-27 17:53:16 2220

Python

python3读csv文件 UnicodeDecodeError

使用pd.read_csv()读csv文件时,出现如下错误:UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0x82inposition743:invalidstartbyte出现原因:文件不是UTF8编码的,而系统默认采用UTF8解码。解决方法是改为对应的解码方式。解决办法:1、用记事本修改找到csv文件–》右键–》打开方式–》记事本打开记事本之后,选择头部菜单的“文件–》另存为”,可以看到文件的默认编码格式为

系统 2019-09-27 17:52:21 2220

Python

使用Python检测文章抄袭及去重算法原理解析

在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有

系统 2019-09-27 17:51:18 2220

Python

Python 就业方面的选择与应用分析

从2015开始国内就开始慢慢接触Python了,从16年开始Python就已经在国内的热度更高了,目前也可以算的上"全民Python"了。众所周知小学生的教材里面已经有Python了,国家二级计算机证也需要学习Python了!因为Python简单、入门快,是不少程序员入门的首选语言。众所周知,Python之所以功能强大,主要是因为Python具有非常丰富的第三方库。这也是Python的魅力所在,比如爬虫类的、人工智能类的等。相应地,我们可以选择的就业方向也

系统 2019-09-27 17:50:10 2220

Python

使用Python的Treq on Twisted来进行HTTP压力测试

从事API相关的工作很有挑战性,在高峰期保持系统的稳定及健壮性就是其中之一,这也是我们在Mailgun做很多压力测试的原因。这么久以来,我们已经尝试了很多种方法,从简单的ApacheBench到复杂些的自定义测试套。但是本贴讲述的,是一种使用python进行“快速粗糙”却非常灵活的压力测试的方法。使用python写HTTP客户端的时候,我们都很喜欢用Requestslibrary。这也是我们向我们的API用户们推荐的。Requests很强大,但有一个缺点,

系统 2019-09-27 17:49:27 2220

Python

Python数据类型 — 元组

元组类似于常量数组。元组名=(元素……)元组创建#创建tuple#格式:元组名=(元组元素1,元组元素2,……,元组元素n)#创建空的元组tuple1=()print(tuple1)#元组中的元素的类型可以不同tuple2=(1,2,3,"good",True)print(tuple2)#定义只有一个元素的元组tuple3=(1,)print(tuple3)print(type(tuple3))元组获取#元组元素的访问格式:元组名[]#下标从0开始tupl

系统 2019-09-27 17:48:39 2220

Python

【python】扫描路径与文件列表

importosimportsocketfile_path=os.getcwd()print('目录'+file_path+'中的文件包括:')print_dir_files(file_path)#print('***获取当前目录***')#print(os.getcwd())print(os.path.abspath(os.path.dirname(__file__)))print('***获取上级目录***')#print(os.path.abspat

系统 2019-09-27 17:47:46 2220

Python

python爬取百度贴吧前1000页内容(requests库面向对象思想实现)

此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数kw首先创建类,写好__init__方法,run方法,__init__方法里先可以直接写passrun方法里大概整理一下整体的思路构造url列表,因为要爬取1000页,每页需对应一个url遍历发送请求,获取响应保存将可封装的步骤封装到单独的方法,所以这里又增加了

系统 2019-09-27 17:46:58 2220