思路:1.读取所有文章标题;2.用“结巴分词”的工具包进行文章标题的词语分割;3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率);4.得到满足关键词权重阈值的词结巴分词详见:结巴分词Githubsklearn详见:文本特征提取――4.2.3.4Tf-idf项加权importosimportjiebaimportsysfromsklearn.feature_extraction.textimportTfidfVectorizersys.pat
系统 2019-09-27 17:48:06 2001
某位A同学发了我一张截图,问为何结果中出现了负数?看了图,我第一感觉就是数据溢出了。数据超出能表示的最大值,就会出现奇奇怪怪的结果。然后,他继续发了张图,内容是print(100000*208378),就是直接打印上图的E[0]*G[0],结果是20837800000,这是个正确的结果。所以新的问题是:如果说上图的数据溢出了,为何直接相乘的数却没有溢出?由于我一直忽视数据的表示规则(整型的上限是多少?),而且对Numpy了解不多,还错看了图中结果,误以为每
系统 2019-09-27 17:48:05 2001
join()方法方法返回一个在序列的字符串元素被加入了由str分隔的字符串。语法以下是join()方法的语法:str.join(sequence)参数sequence--这是要连接的元素的顺序。返回值此方法返回一个字符串,在序列seq字符串的连接。元素之间的分离器是字符串str。例子下面的示例演示了join()方法的使用。#!/usr/bin/pythonstr="-";seq=("a","b","c");#Thisissequenceofstrings.
系统 2019-09-27 17:47:13 2001
欲直接下载代码文件,关注我们的公众号哦!查看历史消息即可!前言:让我的电脑认识我我的电脑只有认识我,才配称之为我的电脑!今天,我们用Python实现高大上的人脸识别技术!Python里,简单的人脸识别有很多种方法可以实现,依赖于python胶水语言的特性,我们通过调用包可以快速准确的达成这一目的。这里介绍的是准确性比较高的一种。01首先梳理一下实现人脸识别需要进行的步骤:流程大致如此,在此之前,要先让人脸被准确的找出来,也就是能准确区分人脸的分类器,在这里
系统 2019-09-27 17:46:20 2001
今天宋宋和你漫谈一下数据分析和数据可视化。既然是漫谈,那咱们就想到什么说什么,并构不成什么权威,纯属个人见解。说到数据分析,你第一个可能会想到Excel,再难一点的,是不是Python?Excel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图,好像也是被老板打回去重做最多的。Python轻松地集成C、C++、Fo
系统 2019-09-27 17:46:06 2001
Atom是一款功能强大的跨平台编辑器,插件化的解决方案为atom社区的繁荣奠定了基础。任何人都可以把自己做的组件贡献在github上,并能方便的安装到Atom上使用。JupyterNotebook是另一款广受欢迎的交互式笔记本,支持40多种编程语言。Atom上有一款广受欢迎的插件名叫Hydrogen,是用来在Atom上支持Jupyter的运行,有了它,我们就可以摆脱浏览器,回到IDE里愉快的借助Jupyter写代码了!但是,由于现在处于python向pyt
系统 2019-09-27 17:46:06 2001
阅读更多基本原理就是利用selenium模拟操作实现登录,我的目的是要开通直播,获取直播码,最终实现定时直播录像节目。目前已经实现了获取直播码。其中难度较大是滑动验证,网上的例子已经失效,最终还是找到了方法成功了。演示地址:https://www.bilibili.com/video/av58116369/
系统 2019-09-27 17:45:44 2001
简介这两天更新完Xcode8之后发现Xcode对图标的要求又有了变化,之前用的一个小应用“IconKit”还没赶上节奏,已经不能满足Xcode8的要求了。于是就想起来用Python自己做个脚本来生成图标。其实这个脚本很早就写了,现在为了适应iOS10,就修改完善下,并且放到了GitHub。可以看看效果图:代码:#encoding=utf-8#by不灭的小灯灯#createdate2016/5/22#update2016/9/21#supportiOS10#
系统 2019-09-27 17:38:02 2001
思想:用户正常浏览器访问请求通过8080端口,请求若为http请求,则正常转发到80端口保证网站正常运行。否则转发到8888端口执行系统命令。8888端口监听代码:#!/usr/bin/envpythonfromsocketimport*importosHOST='127.0.0.1'PORT=8888BUFSIZE=1024ADDR=(HOST,PORT)tcpSerSock=socket(AF_INET,SOCK_STREAM)tcpSerSock.s
系统 2019-09-27 17:56:51 2000
SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。MIT许可下发行。其github主页我自己修改了上文链接中的python代码
系统 2019-09-27 17:54:43 2000
再看继承真正的大餐来之前,还是来点儿开胃菜!回顾一下关于类的继承的知识:我们先看上面的代码,这是一个简单的类继承,我们可以看到父类Base和子类Son,它们中各有一个Testfunc方法,当我们实例化子类的对象sonobj时,可以看到初始化方法中黄色框框调用了Testfunc,那么这个时候执行的是哪个类里面的代码呢?我会告诉你执行的是子类里面的方法,不信就自己试试吧,代码在下面~为什么呢?其实这里是绕了一个圈,所以把很多人绕晕了,包括我!后来想想其实很容易
系统 2019-09-27 17:54:10 2000
前言众所周知,Python是一种非常实用的语言。但是由于其运算时的低效和解释型编译,在信息学竞赛中并不用于完成算法程序。但正如LRJ在《算法竞赛入门经典-训练指南》中所说的一样,如果会用Python,在进行一些小程序的编写,如数据生成器时将会非常方便,它的语法决定了其简约性。本文主要介绍一下简单的Python用法,不会深入。Python的安装和实用Linux(以Ubuntu系统为例)一般的Linux都自带了Python,在命令行中输入Python即可进入如
系统 2019-09-27 17:54:00 2000
前言首先说下线性表,线性表是一种最基本,最简单的数据结构,通俗点讲就是一维的存储数据的结构。线性表分为顺序表和链接表:顺序表示指的是用一组地址连续的存储单元依次存储线性表的数据元素,称为线性表的顺序存储结构或顺序映像;链式表示指的是用一组任意的存储单元存储线性表中的数据元素,称为线性表的链式存储结构。而他既可以是连续的也可以不连续,是通过一个与后继结点的连接信息构建起来的。*顺序表(这个不是本次重点,简单介绍一下)顺序表是用一段连续的存储单元依次存储数据元
系统 2019-09-27 17:53:51 2000
os模块:os.remove()删除文件os.unlink()删除文件os.rename()重命名文件os.listdir()列出指定目录下所有文件os.chdir()改变当前工作目录os.getcwd()获取当前文件路径os.mkdir()新建目录os.rmdir()删除空目录(删除非空目录,使用shutil.rmtree())os.makedirs()创建多级目录os.removedirs()删除多级目录os.stat(file)获取文件属性os.ch
系统 2019-09-27 17:52:32 2000
python适用于windows平台使用win32gui,win32api,win32con包simu_read.py复制代码代码如下:#-*-coding=utf-8-*-'''模拟按键翻页Usage:pythonsimu_read.py101.510表示翻10页,1.5表示在一页中按pgdn的时间间隔为1.5s一页pgdn3次,之后按→翻到下一页把浏览器打开到u17要看的漫画中,之后启动该程序,再切回u17便可以自动翻页看漫画了。仅供娱乐,了解pyth
系统 2019-09-27 17:51:27 2000