起因:有一天突然想看本小说,在小说网站上不能下载,广告太多,便。。。思路:–分析网站的结构–爬取目录(获得章节名和链接)–多线程加载章节网页–正则匹配内容–保存生成错误日志–链接单个章节txt合并为一个#-*-coding:utf-8-*-"""CreatedonTueJul218:23:492019@author:24709"""importurllibimporturllib.requestimportmultiprocessingfrombs4imp
系统 2019-09-27 17:53:50 2189
今天我想讲一讲关于Elasticsearch的索引建立,当然提前是你已经安装部署好Elasticsearch。ok,先来介绍一下Elaticsearch,它是一款基于lucene的实时分布式搜索和分析引擎,是后台系统,用来存储数据,检索数据,属于完全命令行交互。那为什么选择python作为脚本进行命令的写入和数据的上传呢?那是因为Python里面有固定的模板,可以上传数据到Elasticsearch。接下来就聊一聊该如何编写代码:我们上传数据之后,数据到哪
系统 2019-09-27 17:51:02 2189
定义使用内置的defaultdict我们可以很容易的定义一个树形数据结构deftree():returndefaultdict(tree)example:json风格users=tree()users['harold']['username']='bell'users['handler']['username']='master'我们可以使用print(json.dumps(users))以json的形式输出,于是我们看到{'harold':{'usern
系统 2019-09-27 17:47:35 2189
先记录一下我自己像写的一个超级大木马蠕虫的思路。请自行忽略1.本机电脑扫描探测其他电脑2.使用poc验证是否存在漏洞,同时检测是否已经被感染3.如果都满足,感染未感染同时又存在漏洞的机子。4.感染后的机子下载代码。继续以上过程(这样是一台控制几台,几台又控制几台,可以开几台,形成循环。而且不互相知道)5.如何控制自己的这种僵尸网络呢?(开一个特殊的后门)发送一条指令,一传十,十传百。主机信息怎么传递,可传输指令,运行github上的恶意代码,交替运行,由控
系统 2019-09-27 17:47:29 2189
html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:importrea=["",'','','','','','']b="
系统 2019-09-27 17:47:13 2189
现在,越来越多的公司面试以及考验面试对算法要求都提高了一个层次,从现在,我讲每日抽出时间进行5+1算法题讲解,5是指基础题,1是指1道中等偏难。希望能够让大家熟练掌握python的语法结构已经一些高级函数的应用。这些题目是在某些刷题的网站上登记的有水平的题目。这里如果有需要input的简单题,就略去了输出结果。如果时间充裕,则就会增加每日更多习题。一:基础算法题5道1.判断用户输入的年份是否为闰年题目解析:(1)问题分析:能被4整除但不能被100整除的年份
系统 2019-09-27 17:46:05 2189
上文已经讲到,Tcp连接池管理器为我们的应用进行了很多复杂的管理,比如功能服务器的调度(实现FS的负载均衡)、连接池的动态添加/移除、控制每个连接池的相关参数在UI上的显示等,并且连接池管理器与单个连接池拥有一样的接口ITcpPool。我们先回顾一下这个接口:1publicinterfaceITcpPool2{3RentStreamResultRentTcpStream(intpoolTypeKey,intserviceKey,outNetworkStre
系统 2019-08-29 23:36:45 2189
Bag-Of-Words中K-Means聚类的效率优化最初的Bagofwords,也叫做“词袋”,在信息检索中,Bagofwordsmodel假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。现在ComputerVision中的Bagofwords来表示图像的特征描述也是很流行的。大
系统 2019-08-29 23:16:42 2189
最近要增加短信平台对移动CMPP3协议的支持,所以就研究了下他的实现。所谓的CMPP就是中国移动通信互联网短信网关接口协议。CMPP协议以TCP/IP作为底层通信承载,所以开发这块需要对TCP/IP网络编程要有一定的了解。原理:个人理解就是双方建立以什么方式来通信,就好比信是暗号写的,只有双方看的懂。本文主要针对于长连接形式发送短信为例,而我们编写程序也只用编写在C/S架构的通讯过程中的C,然后根据服务商提供的帐号、参数经行测试。下图是长连接的流程图。一、
系统 2019-08-29 22:53:23 2189
一、J2EE提出的背景1、企业级应用框架的需求在许多企业级应用中,例如数据库连接、邮件服务、事务处理等都是一些通用企业需求模块,这些模块如果每次再开发中都由开发人员来完成的话,将会造成开发周期长和代码可靠性差等问题。于是许多大公司开发了自己的通用模块服务。这些服务性的软件系列同陈为中间件。2、为了通用必须要提出规范,不然无法达到通用在上面的需求基础之上,许多公司都开发了自己的中间件,但其与用户的沟通都各有不同,从而导致用户无法将各个公司不同的中间件组装在一
系统 2019-08-29 22:51:51 2189