写爬虫似乎没有比用Python更合适了,Python社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的library分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的Python教程爬下来做成PDF电子书方便大家离线阅读。开始写爬虫前,我们先来分析一下该网站1的页面结构,网页的左侧是教程的目录大纲,每个URL对应到右边的一篇文章,右侧上方是文章的标题,中间是文章的正文部分,正文内容是我们关心的重点,我们要爬的数据就是所有网页的正文部分
系统 2019-09-27 17:55:45 2098
读取文件,将每一行作为列表的一个值,求每个字符串出现的次数,以及有哪些字符串。写入文件,按次数大小排序,次数后面对应着字符串#-*-coding:utf-8-*-input1=open('jpc.txt','r')output1=open('out.txt','w')list_of_all_the_lines=input1.read()a=list_of_all_the_lines.splitlines(False)myset=set(a)mylist_c
系统 2019-09-27 17:55:22 2098
datetime模块中包含五种基本类型:date、time、datetime、timedelta和tzinfo,tz是timezone的缩写,tzinfo用于表示时区信息。一,date类型date类型表示日期,是由year、month和day构成的对象1,初始化date对象使用date(year,month,day)函数来初始化date对象:fromdatetimeimportdatemydate=date(year,month,day)2,date对象函
系统 2019-09-27 17:54:44 2098
本文实例讲述了Python读写文件模式和文件对象方法。分享给大家供大家参考,具体如下:一.读写文件模式利用open()读写文件时,将会返回一个file对象,其基本语法格式如:open(filename,mode)其中,filename变量是一个包含了你要访问的文件名称的字符串值。而mode决定了你打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。注:这个参数是非强制的,默认文件访问模式为只读模式(r)例如,我们现在将一个字符串写入到test.
系统 2019-09-27 17:54:20 2098
表单操作一、表结构操作1.创建表2.查看表信息3.修改表结构二、表记录操作1.表纪录之增,删,改2.表记录之查三、外键约束四、多表查询准备两张表笛卡尔积查询内连接查询外连接查询五、索引1.索引简介2.索引语法1.创建表时创建索引2.已存在的表创建索引3.删除索引3.索引测试实验一、表结构操作1.创建表createtabletab_name(field1type[完整性约束条件],field2type,...fieldntype)[charactersetx
系统 2019-09-27 17:54:20 2098
一、字符编码简史:美国:1963年ASCII(包含127个字符占1个字节)中国:1980年GB2312(收录7445个汉字,包括6763个汉字和682个其它符号)1993年GB13000(收录20902个汉字)1995年GBK1.0(收录21003个汉字)2000年GB18030(收录70244个汉字)世界:1991年unicode(‘万国码'也就统一编码,通常占2字节,复杂的汉字占4字节)UTF-8(可变长的字符编码)二、python中的编码解码应用Py
系统 2019-09-27 17:53:49 2098
Python标准库中的BaseHTTPServer模块实现了一个基础的HTTP服务器基类和HTTP请求处理类。这在文章python探索之BaseHTTPServer-实现Web服务器介绍中进行了相关的介绍。然而,BaseHTTPServer模块中并没有定义相关的请求方法,诸如GET、HEAD、POST等。在BaseHTTPServer模块的基础上,Python标准库中的SimpleHTTPServer模块实现了简单的GET、HEAD请求。在该模块中,它沿用
系统 2019-09-27 17:53:34 2098
建造者模式,也是一种创建新对象的设计方法,和C++中的虚函数很类似,但是用到了python自身的虚基类ABCMeta。1.应用场景:某个类中的函数较多,且实现比较复杂,很多时候需要继承的子类重载或者重新定义逻辑;2.背景基础:由于用到python中虚函数,需要了解abc模块中的ABCMeta和python中类创建对象时的__metaclass__属性含义。一般地,在某个类中如果定义__metaclass__=something时,简单地说是,创建对象时,会
系统 2019-09-27 17:52:24 2098
阅读更多本文分享自6丁一的猫的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。1、python与jdk版本位数一致2、pipinstalljpype1(python3.5)3、类库hanlp.jar包、模型data包、配置文件hanlp.properties放在一个新建目录4、修改hanlp.properties中root根目录,找到data代码调用如下:1|#coding:utf-82|'''3|Createdon20
系统 2019-09-27 17:52:23 2098
起源2001年秋召开第十届InternationalPythonConference(IPC10,Pycon的前身),打算征集一条印在会议T恤衫上的标语,最终他们从Python社区收到了500多条投稿。并最中筛选确认为importthis,他们选择之后觉得需要实现它,经过讨论最中定义为了由TimPeter写的《ThezenofPython》触发在交互命令中输入importthis就会触发。>>>importthisTheZenofPython,byTimP
系统 2019-09-27 17:50:10 2098