阅读更多本文分享自6丁一的猫的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。1、python与jdk版本位数一致2、pipinstalljpype1(python3.5)3、类库hanlp.jar包、模型data包、配置文件hanlp.properties放在一个新建目录4、修改hanlp.properties中root根目录,找到data代码调用如下:1|#coding:utf-82|'''3|Createdon20
系统 2019-09-27 17:52:23 1989
先看map。map()函数接收两个参数,一个是函数,一个是序列,map将传入的函数依次作用到序列的每个元素,并把结果作为新的list返回。举例说明,比如我们有一个函数a(x)=x*2,要把这个函数作用在一个list[1,2,3,4,5]上,就可以用map()实现如下:复制代码代码如下:>>>defa(x):...returnx*2...>>>map(a,[1,2,3,4,5])[2,4,6,8,10]map传入的第一个参数a,即a函数,当然你也可以不用ma
系统 2019-09-27 17:52:06 1989
1.交换变量值2.将一列表中的所有元素拼接成字符串3.查找list中最高频率的值4.检查两个单词是否是字谜(组成的字母和对应数量一致)5.反转字符串6.反转列表7.转置2维数组8.链式比较9.链式函数调用10.复制列表11.DictionaryGet12.按值排序字典13.ForElse14.将列表转换为逗号分隔的字符串15.合并字典16.list中的最小和最大索引17.从列表中删除重复项查看英文原文:https://hackernoon.com/pyth
系统 2019-09-27 17:51:34 1989
今天主要是来说一下怎么可视化来监控你的爬虫的状态。相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。1.成品图这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的
系统 2019-09-27 17:50:52 1989
“表情包”是现在非常流行的交流方式,通过一张图片就能把文字不能表达或不便于表达的情感给表示出来,表情包一经诞生,就统治了中国人的社交圈,尤其是年轻人,他们的社交方式是所谓“天可不聊,图不可不斗”,几乎任何对话都会出现表情包的身影,一言不合就斗图,自己也会在聊天中发几个表情包,可是总会造成一些小误会,比如下面的图有好多朋友看到这个表情包之后误以为这也是我用Python做的,其实不然,这个图就是网上普通的表情包,但是今天我要用Python做几个表情包。今天制作
系统 2019-09-27 17:49:06 1989
斐波那契数列:12345678910...11235813213455...1.用迭代实现斐波那契数列(非递归方法)deffab(n):n1=1n2=1n3=1ifn<1:print('输入有误!')while(n-2)>0:n3=n2+n1#第三项为前两项和n1=n2#计算完,整体后移,准备计算下一项n2=n3n-=1returnn3a=int(input('请输入要计算的斐波那契项数:'))result=fab(a)print('第%d项斐波那契数为%
系统 2019-09-27 17:46:56 1989
目的测试一个对象是否是字符串方法Python的字符串的基类是basestring,包括了str和unicode类型。一般可以采用以下方法:复制代码代码如下:defisAString(anobj):returnisinstance(anobj,basestring)不过以上方法对于UserString类的实例,无能无力。复制代码代码如下:In[30]:b=UserString.UserString('abc')In[31]:isAString(b)Out[3
系统 2019-09-27 17:46:56 1989
原文链接:https://docs.python.org/3.8/whatsnew/3.8.html#summary-release-highlights作者|小刘来源|菜鸟学Python继3.7版本之后Python再次发布了新版本,虽然新版本带来了不少调整,但是其中很大一部分都是对代码底层设计的修改,又或是typing、pickle等不常用的功能,对多数用户而言影响不大,今天我想重点聊一聊那些将对我们的代码编写产生较大影响的新功能。在体验开始前先说下准备
系统 2019-09-27 17:46:14 1989
涉及到详情页爬取目录结构:kaoshi_bqg.pyimportscrapyfromscrapy.spidersimportRulefromscrapy.linkextractorsimportLinkExtractorfrom..itemsimportBookBQGItemclassKaoshiBqgSpider(scrapy.Spider):name='kaoshi_bqg'allowed_domains=['biquge5200.cc']start_
系统 2019-09-27 17:46:11 1989
下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接代码如下:importurllib2importreurl='http://www.sunbloger.com/'req=urllib2.Request(url)con=urllib2.urlopen(req)doc=con.read()con.close()links=re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]
系统 2019-09-27 17:38:07 1989