搜索到与相关的文章
编程技术

【分词】正向最大匹配中文分词算法

中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。●算法思想正向最大匹配算法:从左到右将待分词文本中的几个

系统 2019-08-29 21:59:36 2050

Python

python学习手册笔记——39.元类

00.比99%的用户所担心的魔力要更深。如果你犹豫是否需要他们,那你不需要它们(真正需要元类的人,能够确定地直到需要它们,并且不需要说明为什么需要)。“因为某物很酷”而编写它,似乎不是一种合理的判断,除非你在做试验或者学习。01.元类就是用来创建类的“东西”。你创建类就是为了创建类的实例对象。02.03.元类的主要目的就是为了当创建类时能够自动地改变类。04.元类修改:内省属性:__class__和__dict__这样的特殊属性允许我们查看Python对象

系统 2019-09-27 17:57:31 2049

Python

解决Python内层for循环如何break出外层的循环的问题

偶然发现了for…else…这种用法,使用这个实现了break跳出嵌套的for循环In[31]:foriinrange(1,5):...:forjinrange(5,10):...:print(i,j)...:ifj==6:...:break...:else:...:continue...:break1516for…else…的运行逻辑是当for循环正常执行结束就会运行其else语句,如果中途break的话,就不会执行else中的内容上面的代码实现了内存f

系统 2019-09-27 17:57:18 2049

Python

python爬虫urllib的request与parse方法

在爬虫前,需要知道这两个知识点!!!字符串转字节类型str-->bytesencode()字节类型转字符串bytes-->strdecode()1.以一个简单的例子讲解urllib.request方法read读取相应内容,内容geturl获取请求的urlgetheaders获取头部信息getcode获取状态码readlines按行读取,返回列表,都是字节类型1.1获取百度的网页代码importurllib.requesturl="https://www.b

系统 2019-09-27 17:57:13 2049

Python

第16课 python 编码和文件读写

编码0,12进制,8,16进制;ACSII是127个不到1个byte=8bit由于时间发现欧洲使用第8个bit,有256个字符,到了中国不足够。所以中国人gb2312,gbk开发。。为了python程序方便。。。不能说python,世界和平,规定了unicode(在内存运营)unicode不人性化,什么都要占2个byte16个bit,然后utf-8出现了机会。。。。中文3个byte,英文1个byte..#####################"aaa".

系统 2019-09-27 17:56:48 2049

Python

python pillow模块使用方法详解

pillowPillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库。pillow可以说已经取代了PIL,将其封装成python的库(pip即可安装),且支持python2和python3,目前最新版本是3.0.0。Pillow的Github主页:https://github.com/python-pillow/PillowPillow的文档(对应版本v3.0.0):https://pillow.readthedocs.org

系统 2019-09-27 17:56:31 2049

Python

python实现根据图标提取分类应用程序实例

本文实例讲述了python实现根据图标提取分类应用程序,分享给大家供大家参考。具体方法如下:#!/usr/bin/python#-*-coding:utf-8-*-importImageimportwin32uiimportwin32guidefmake_regalur_image(img,size=(256,256)):returnimg.resize(size).convert('RGB')defsplit_image(img,part_size=(6

系统 2019-09-27 17:56:14 2049

Python

python操作mysql中文显示乱码的解决方法

本文实例展示了一个脚本python用来转化表配置数据xml并生成相应的解析代码。但是在中文编码上出现了乱码,现将解决方法分享出来供大家参考。具体方法如下:1.Python文件设置编码utf-8(文件前面加上#encoding=utf-8)2.MySQL数据库charset=utf-83.Python连接MySQL是加上参数charset=utf84.设置Python的默认编码为utf-8(sys.setdefaultencoding(utf-8)示例代码如

系统 2019-09-27 17:55:27 2049

Python

老生常谈python之鸭子类和多态

一、什么是多态<1>一种类型具有多种类型的能力<2>允许不同的对象对同一消息做出灵活的反应<3>以一种通用的方式对待个使用的对象<4>非动态语言必须通过继承和接口的方式来实现二、python中的多态<1>通过继承实现多态(子类可以作为父类来使用)<2>子类通过重载父类的方法实现多态classAnimal:defmove(self):print('animalismoving....')classDog(Animal):passdefmove(obj):ob

系统 2019-09-27 17:55:15 2049

Python

Python的IDEL增加清屏功能实例

为idle增加一个清屏的扩展ClearWindow就可以了(在http://bugs.python.org/issue6143中可以看到这个扩展的说明)。下面我说安装使用的方法。首先下载clearwindow.py(点击可直接下载,不能下载的可以右键保存,格式为py结尾),将这个文件放在PythonX\Lib\idlelib目录下(X为你的python版本),然后在这个目录下找到config-extensions.def这个文件(idle扩展的配置文件),

系统 2019-09-27 17:55:08 2049