作者:伏草惟存来源:http://www.cnblogs.com/baiboy/p/nltk2.htmlPython的几个自然语言处理工具1.NLTK:NLTK在用Python处理自然语言的工具中处于领先的地位。它提供了WordNet这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。2.Pattern:Pattern的自然语言处理工具有词性标注工具(Part-Of-SpeechTagger),N元搜索(n-gramsearc
系统 2019-09-27 17:51:07 1941
Python入门之内置模块--logging模块1、logging--日志(1)日志的作用:<1>记录用户信息<2>记录个人流水<3>记录软件的运行状态<4>记录程序员发出的指令<5>用于程序员代码调试(2)日志的函数式简单配置:logging.debug()#debug调试10logging.info()#info信息20logging.warning()#warning警告30logging.error()#error错误40logging.criti
系统 2019-09-27 17:51:02 1941
python实现文本进度条程序进度条加载进度条单行刷新功能,具体内容如下所示:利用time库来替代某个程序的进行过程,做实例,思路是,简单打印出来程序进度单行刷新关键是\r,python默认是print后换行,所以加一个\r是光标回退到之前位置importtimetm=10print('{:-^18}'.format('开始'))foriinrange(tm+1):a='#'*ib='.'*(tm-i)c=(i/tm)*100print('\r{:^3.0
系统 2019-09-27 17:50:08 1941
环境:Ubuntu16.4python版本:3.6.4库:wordcloud这次我们要讲的是爬取QQ音乐的评论并制成云词图,我们这里拿周杰伦的等你下课来举例。第一步:获取评论我们先打开QQ音乐,搜索周杰伦的《等你下课》,直接拉到底部,发现有5000多页的评论。这时候我们要研究的就是怎样获取每页的评论,这时候我们可以先按下F12,选择NetWork,我们可以先点击小红点清空数据,然后再点击一次,开始监控,然后点击下一页,看每次获取评论的时候访问获取的是哪几条
系统 2019-09-27 17:49:01 1941
1、安装setuptools命令如下:wget--no-check-certificatehttps://pypi.python.org/packages/source/s/setuptools/setuptools-19.6.tar.gz#md5=c607dd118eae682c44ed146367a17e26tar-zxvfsetuptools-19.6.tar.gzcdsetuptools-19.6python3setup.pybuildpython
系统 2019-09-27 17:48:33 1941
对于提供上传的服务器,需要对上传的文件进行过滤。本文为大家提供了python通过文件头判断文件类型的方法,避免不必要的麻烦。分享代码如下importstruct#支持文件类型#用16进制字符串的目的是可以知道文件头是多少字节#各种文件头的长度不一样,少半2字符,长则8字符deftypeList():return{"52617221":EXT_RAR,"504B0304":EXT_ZIP}#字节码转16进制字符串defbytes2hex(bytes):num
系统 2019-09-27 17:38:38 1941
调用百度API获取经纬度信息。importrequestsimportjsonaddress=input('请输入地点:')par={'address':address,'key':'cb649a25c1f81c1451adbeca73623251'}url='http://restapi.amap.com/v3/geocode/geo'res=requests.get(url,par)json_data=json.loads(res.text)geo=j
系统 2019-09-27 17:37:51 1941
1.filecmp模块介绍当我们进行代码审计或校验备份结果时,往往需要检查原始与目标目录的文件一致性,Python的标准库已经自带了满足此需求的模块filecmp。filecmp可以实现文件、目录、遍历子目录的差异对比功能。比如报告中输出目标目录比原始多出的文件或子目录,即使文件同名也会判断是否为同一个文件(内容级对比)等,Python2.3或更高版本默认自带filecmp模块,无需额外安装,下面进行详细介绍。2.模块常用方法说明filecmp提供了三个操
系统 2019-09-27 17:56:45 1940
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。举个例子,某些网站是需要登录后才能得到你想要的信息的,不登陆只能是游客模式,那么我们可以利用Urllib2库保存我们以前登录过的Cookie,之后载入cookie获取我们想要的页面,然后再进行抓取。理解cookie主要是为我们快捷模拟登录抓取目标网页做出准备。我之前的帖子中使用过urlopen()这个函数来打开网页进行抓取,这仅仅只是一个简单的Py
系统 2019-09-27 17:56:06 1940
学习任何一门语言都是从入门(1年左右),通过不间断练习达到熟练水准(3到5年),少数人最终能精通语言,成为执牛耳者,他们是金字塔的最顶层。虽然万事开头难,但好的开始是成功的一半,今天这篇文章就来谈谈如何开始入门Python。只要方向对了,就不怕路远。设定目标当你决定入门Python时,需要一个清晰且短期内可实现的目标,比如通过学习找一份初级程序员工作,目标明确后,你需要了解企业对初级程序员有哪些技能要求,下面是我从拉勾网找的一个初级Python工程师的任职
系统 2019-09-27 17:54:40 1940
data=[1,8,5,9,7,4,5]print(data[10:])#返回空print(data[10])#出错,越界
系统 2019-09-27 17:54:02 1940
一、面向对象概述如今主流的软件开发思想有两种:一个是面向过程,另一个是面向对象。面向过程出现得较早,典型代表为C语言,开发中小型项目的效率很高,但是很难适用于如今主流的大中型项目开发场景。面向对象则出现得更晚一些,典型代表为Java或C++等语言,更加适合用于大型开发场景。两种开发思想各有长短。对于面向过程的思想:需要实现一个功能的时候,看重的是开发的步骤和过程,每一个步骤都需要自己亲力亲为,需要自己编写代码(自己来做)对于面向对象的思想:当需要实现一个功
系统 2019-09-27 17:53:52 1940
1、默认python3、ipython3、pip的路径name@host:~$whichpython/usr/bin/pythonname@host:~$whichpython3/usr/bin/python3name@host:~$whichpip/usr/local/bin/pipname@host:~$whichpip3/usr/local/bin/pip3name@host:~$whichipython3/usr/local/bin/ipython
系统 2019-09-27 17:53:11 1940
这是书籍《PandasCookbook》书籍第04章的代码复现,所有代码运行在JupyterNotebook上,原讲解地址是:https://www.jianshu.com/p/bd0bc1b5b4b6我上传代码的github地址是:https://github.com/Asunqingwen/PandasCookbook.gitgithub上有该书中用到的data,里面代码会不定期更新(因为工作原因,时间不定),直到本书学习完成!相比原讲解,会穿插一些自
系统 2019-09-27 17:52:46 1940
一、写在前面前几天在微信上看到这样一篇文章,链接为:https://mp.weixin.qq.com/s/rl6Sgv3uk_IpoFAx6cWa8w,在这篇文章中,有这样一段话,吸引了我的注意:在Linux中ls是一个使用频率非常高的命令了,可选的参数也有很多,算是一条不得不掌握的命令。Python作为一门简单易学的语言,被很多人认为是不需要认真学的,或者只是随便调个库就行了,那可就真是小瞧Python了。那这次我就要试着用Python来实现一下Linu
系统 2019-09-27 17:49:52 1940