需要准备的环境:一个B站账号,需要先登录,否则不能查看历史弹幕记录联网的电脑和顺手的浏览器,我用的ChromePython3环境以及request模块,安装使用命令,换源比较快:pip3installrequest-ihttp://pypi.douban.com/simple爬取步骤:登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求点击查看历史弹幕,获取请求其中rolldate后面的数字表示该视频
系统 2019-09-27 17:52:52 1914
一、反射1什么是反射反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力(自省)。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在Lisp和面向对象方面取得了成绩。2python面向对象中的反射:通过字符串的形式操作对象相关的属性。python中的一切事物都是对象(都可以使用反射)四个可以实现自省的函数下列方法适用于类和对象(一切皆对象,类本身也是一个对
系统 2019-09-27 17:52:50 1914
博主写了一个智联招聘的爬虫,只要输入职位关键字,就能快速导出智联招聘上的数据,存在excel表里~importrequests,openpyxl#建立excel表joblist=[]wb=openpyxl.Workbook()sheet=wb.activesheet.title='智联招聘数据'sheet['A1']='职位名称'sheet['B1']='薪资'sheet['C1']='工作经验'#爬虫keyword=str(input('请输入查找职位的
系统 2019-09-27 17:49:32 1914
01前言Python现有的版本多,每个项目使用的Python版本都不一样,管理起来比较麻烦。github有一个项目叫做pyenv,它是一个多版本管理工具,非常好用,不但支持多版本,而且可以自由切换。本文以CentOS7平台为例,演示pyenv的功能。本文转自我个人的公众号:天目星,请大家多多关注。请关注我的微信公众号一、安装pyenv的项目地址:https://github.com/pyenv/pyenvPS:安装pyenv前需要安装相关依赖包$yumin
系统 2019-09-27 17:48:50 1914
本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(FrançoisChollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,涉及计算机视觉、自然语言处理、生成式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化,读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后,读者将具备搭建自己的深度学习环境、建立图像识别模型、生成图像和文字等能力。本书特色“本书在当前的‘
系统 2019-09-27 17:48:30 1914
网络请求urlopen函数用法urllib库urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据urlopen函数在python3的urllib库中,所有和网络请求相关的方法都被集成到urllib.request模块下面了,下面先看下urlopen函数基本使用:fromurllibimportrequestresp=request.urlopen('http://www.baid
系统 2019-09-27 17:48:21 1914
在读取https://github.com/Embedding/Chinese-Word-Vectors中的中文词向量时,选择了一个有3G多的txt文件,之前在做词向量时用的是word2vec,所以直接导入模型然后indexword即可。因为这是一个txt大文件,尝试了DataFrame,np.loadtxt等,都没有成功,其中主要遇到的问题是:如何读取完整的大文件,而不会出现内存不足memeryerror等问题将读取出来的文件,保存为npy文件根据词找到
系统 2019-09-27 17:47:39 1914
0x00第一版:这一版没有使用线程池,当字典过大的时候就会出现子线程过多,导致内存,CPU等爆满。importeasyguiasgui#导入uiimportftplib#导入ftp模块frommultiprocessingimportProcess,Queue#引入多线程机制importtimedefinfo_get():#获取爆破信息参数title="FTP暴力猜解"message=['请选择用户文件','请选择密码文件','请输入要猜解的主机ip','
系统 2019-09-27 17:46:21 1914
文章目录H5数据集的使用使用h5py的group分割GB级数据H5数据集的使用#创建withh5py.File("data_train.h5",'w')ashf:hf.create_dataset('train_input',data=shuffled_input)hf.create_dataset('train_label',data=shuffled_label)#打开withh5py.File("data_train.h5",'r')ashf:tra
系统 2019-09-27 17:46:09 1914
如何使用模板系统让我们深入研究模板系统,你将会明白它是如何工作的。但我们暂不打算将它与先前创建的视图结合在一起,因为我们现在的目的是了解它是如何独立工作的。。(换言之,通常你会将模板和视图一起使用,但是我们只是想突出模板系统是一个Python库,你可以在任何地方使用它,而不仅仅是在Django视图中。)在Python代码中使用Django模板的最基本方式如下:可以用原始的模板代码字符串创建一个Template对象,Django同样支持用指定模板文件路径的方
系统 2019-09-27 17:37:55 1914
在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实现了一个简单的拼音输入法。githuh地址:https://github.com/LiuRoy/Pinyin_Demo原理简介隐马尔科夫模型抄一段网上的定义:隐马尔可夫模型(HiddenMarkovModel)是一种统计模
系统 2019-09-27 17:37:43 1914
目的:导出的Excel模板,某些单元格要是文本形式,如下图我之前想当然的用cell.setCellType(HSSFCell.CELL_TYPE_STRING),但是发现没有效果。实际POI对Excel单元格格式的设置是用HSSFDataFormat这个类。如下代码可以实现设置为文本格式:HSSFCellStylecellStyle=workbook.createCellStyle();HSSFDataFormatformat=workbook.creat
系统 2019-08-29 23:33:06 1914
前几天写了几篇关于ApacheMina的博客,关于其中用到资料和Jar文件现在给出完整的地址,如有需要,请自己去下载:深入理解ApacheMina中的源码都在http://chinaestone.iteye.com/admin/blogs/426219的附件中。使用的Mina的Jar包为ApacheMina1.1.7版本,由于Mina2.0以上版本现在还不稳定,因此没有对其做过多的讨论,Mina1.1.7版本的Jar文件下载地址为:http://mina.
系统 2019-08-29 23:01:52 1914
、代码(以这个网页为例http://www.qunar.com/site/zh/Cooperate_4.shtml)packageextract;importorg.htmlparser.NodeFilter;importorg.htmlparser.Parser;importorg.htmlparser.filters.NodeClassFilter;importorg.htmlparser.tags.LinkTag;importorg.htmlpars
系统 2019-08-29 22:50:53 1914
上一篇我主要介绍dwr的概况。这一篇我用dwr做了个可以不刷新页面就更新的表格。运行环境:windowsxpprosp2j2sdk1.2.4_03weblogic8.1struts1.2.4开发工具eclipse3.0其实dwr和struts没有什么关系,只不过最近我们项目组在用struts作东西。我就顺便用把我的程序建立在Struts上。主要文件。dwr.jar--dwr的类库包struts的类库包,具体我不说了,这东西谁都知道。jdts0.9.jar-
系统 2019-08-29 22:50:15 1914