做爬虫项目时,我们需要考虑一个爬虫在爬取时会遇到各种情况(网站验证,ip封禁),导致爬虫程序中断,这时我们已经爬取过一些数据,再次爬取时这些数据就可以忽略,所以我们需要在爬虫项目中设置一个中断重连的功能,使其在重新运行时从之前断掉的位置重新爬取数据。实现该功能有很多种做法,我自己就有好几种思路,但是真要自己写出来就要费很大的功夫,下面我就把自己好不容易拼凑出来的代码展示出来吧。首先是来介绍代码的思路:将要爬取的网站连接存在一个数组new_urls中,爬取一
系统 2019-09-27 17:56:18 2104
这是一篇机器学习岗位的笔试题,题目大概就是:给定了数据特征和数据标签(二分类),使用机器学习算法对数据进行分类,并优化两个重要的参数,计算AUC指标,画出参数优化和AUC指标变化图。本文选择的是SVM(支持向量机)来实现这一过程,SVM是非常强大、灵活的有监督学习的算法,既可以用于分类,也可以用于回归。实现过程:1.导入需要的包importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfrommp
系统 2019-09-27 17:56:06 2104
利用Python+wxpy可以快速的查询自己好友的地区分布情况,以及好友的性别分布数量。还可以批量下载好友的头像,拼接成大图。本次教程是基于上次机器人后的,所有依赖模块都可以复用上次的,还不知道的小伙伴可以戳这里。python+wxpy机器人准备工作编辑器一个注册一年以上的微信号公共部分代码fromwxpyimport*//wxpy依赖fromPILimportImage//二维码登录依赖importos//本地下载依赖importmathimportwe
系统 2019-09-27 17:55:44 2104
前言虽然同花顺之类的金融理财应用的数据足够好了,但还是有自己定制的冲动,数据自然不会不会比前者好很多,但是按照自己的想法来定制还是不错的。目标通过免费的数据接口获取数据,每日增量更新标的历史交易数据,然后通过Kibana做可视化及数据分析.其实自己通过echarts之类的可视化框架做可视化也是个不错的选择,不过前期成本太大。还有就是pandas+matplotlib已经足以应付大部分需求了,可是交互感太弱,所以借助一个可视化应用是很有必要的,这里选择的是k
系统 2019-09-27 17:55:43 2104
新建一个module,用于根据用户名来获取文章的url#coding=utf-8frombs4importBeautifulSoupimportrequests#获取博客文章数量defget_page_size(user_name):article_list_url='https://blog.csdn.net/'+user_namereq=requests.get(url=article_list_url)article_list_html=req.te
系统 2019-09-27 17:54:34 2104
到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是:第一篇:Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端。第二篇:淘宝自动登录2.0,新增Cookies序列化,教大家如何将cookies保存起来。第三篇:Python爬取淘宝商品避孕套,教大家如何爬取淘宝pc端商品信息。今天,我们来看看淘宝系列的第四篇我们在上一篇的时候已经将淘宝数据爬取下来了,但是并没有做数据分析。所以今天这篇文章就是教大家如何去分析数据,得出一些有用的
系统 2019-09-27 17:52:31 2104
在对Python中的闭包进行简单分析之前,我们先了解一下Python中的作用域规则。关于Python中作用域的详细知识,有很多的博文都进行了介绍。这里我们先从一个简单的例子入手。Python中的作用域假设在交互式命令行中定义如下的函数:>>>a=1>>>deffoo():b=2c=3print"locals:%s"%locals()return"result:%d"%(a+b+c)>>>a=1>>>deffoo():b=2c=3print"locals:%
系统 2019-09-27 17:51:51 2104
atom(一款开源的代码编辑器)是github专门为程序员推出的一个跨平台文本编辑器。具有简洁和直观的图形用户界面,并有很多有趣的特点:支持CSS,HTML,JavaScript等网页编程语言。它支持宏,自动完成分屏功能,集成了文件管理器。Atom下载:https://www.jb51.net/softs/289341.htmlAtom编辑器mac版下载:创建和运行Python程序的最基本方法是创建一个扩展名为.py的空文件,并使用pythonfilena
系统 2019-09-27 17:50:22 2104
我们在做webUI自动化时,经常会碰到下拉框,如下图:所上图,下拉框的源代码如下:苹果香蕉菠萝梨子假如我们要选择‘菠萝',我们将怎么实现呢?首先我们要定位水果框,再定位水果下面的元素,如下图所示:具体代码如下:fromseleniumimportwebdriverfromselenium.webdriver.support.selectimportSelect#首先必须要导入select包才能定位fromtimeimportsleepdr=webdrive
系统 2019-09-27 17:49:20 2104
首先定义了一个test.py的文件,然后再定义一个函数,并在函数定义后直接运行:test.pydefHaveFun():if__name__=='__main__':print('Iaminmydomain,mynameis%s'%__name__)else:print('Someoneelsecallsme!,mynameis%s'%__name__)HaveFun()运行test.py结果:Iaminmydomain,mynameis__main__然
系统 2019-09-27 17:49:17 2104
python如何处理“”开头加数字的html字符,比如:风水这类数据。用python抓取数据时,有时会遇到想要数据是以“”开头加数字的字符,比如图中所示的这些:风水大术士这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。Python2.7版本在python2.7版本中,使用importHTMLParser定义变量,再定义转换代码。代码中最重要的是“data_parser=HTMLParser.HTMLParser()”,通
系统 2019-09-27 17:49:11 2104
isalnum()方法检查判断字符串是否包含字母数字字符。语法以下是isalnum()方法的语法:str.isa1num()参数NA返回值如果字符串中的所有字符字母数字和至少有一个字符此方法返回true,否则返回false。例子下面的例子显示了isalnum()方法的使用。#!/usr/bin/pythonstr="this2009";#Nospaceinthisstringprintstr.isalnum();str="thisisstringexamp
系统 2019-09-27 17:38:05 2104
一.java.util.timer类(一般不用它)首先在web.xml中配置listener监听器
系统 2019-08-29 23:49:40 2104
PowerDesigner中,但修改了某个字段的name,其code也跟着修改,这个问题很讨厌,因为一般来说,name是中文的,code是字段名。解决方法如下:1、选择Tools->GeneralOptions...菜单,出现GeneralOptions对话框。2、从Category中选择Dialog项。3、取消右边“NametoCodemirroring”复选框。如下图:OVER!就这么简单!PowerDesigner中Name与Code同步的问题
系统 2019-08-29 23:46:46 2104
前言互联网发展到现在,早已超越了原始的初衷,人类从来没有像现在这样依赖过他;也正是这种依赖,促进了互联网技术的飞速发展。而终端设备的创新与发展,更加速了互联网的进化;HTTP/1.1规范发布于1999年,同年12月24日,HTML4.01规范发布;尽管已到2012年,但HTML4.01仍是主流;虽然HTML5的草案已出现了好几个年头,但转正日期,遥遥无期,少则三五年,多则数十年;而HTML5的客户代理(对于一般用户而言,就是浏览器),则已百家争鸣,星星向荣
系统 2019-08-29 23:45:57 2104