搜索到与相关的文章
各行各业

[Nutch]如何利用HTML页面中meta元素?

[Nutch]如何利用HTML页面中meta元素?[郑昀]1:假如说你的站点页面中有这么一句:你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值:PropertiesgeneralMetaTags=metaTags.getGeneralTags()

系统 2019-08-12 01:32:23 2223

Python

Python3 与 Python2共存

Python3与Python2共存查看当前python版本python--version备份pythonwhichpythonmv/usr/bin/python/usr/bin/python.bak下载安装更新python3wgethttps://www.python.org/ftp/python/3.6.2/Python-3.6.2.tar.xztar-xvJfPython-3.6.2.tar.xz安装关联程序,安装编译python3yuminstall

系统 2019-09-27 17:57:10 2222

Python

面试| Python 自动化测试面试经典题目

过完春节,一共参加了5个公司的面试。第一家公司,通过了2轮技术面试,但是薪资不够理想。第二个公司,被面试的测试专家虐的不要不要的,挂了,但也知道了自己很多不足之处。后面三个公司的面试都顺利拿到了Offer。凭印象对面试题进行简单总结回顾,以代码方面的问题为主,经验不足,回答水平也有限,希望与同学们一起交流探讨。P.S.本人目前用的语言主要是Python和JavaScript,面试的这5家公司都是用Python做自动化测试,所以以下代码问题基本上都是关于Py

系统 2019-09-27 17:57:07 2222

Python

python计算书页码的统计数字问题实例

本文实例讲述了python计算书页码的统计数字问题,是Python程序设计中一个比较典型的应用实例。分享给大家供大家参考。具体如下:问题描述:对给定页码n,计算出全部页码中分别用到多少次数字0,1,2,3,4...,9实例代码如下:defcount_num1(page_num):num_zero=0num_one=0num_two=0num_three=0num_four=0num_five=0num_six=0num_seven=0num_eight=0

系统 2019-09-27 17:56:23 2222

Python

真正搞明白Python中Django和Flask框架的区别

在谈Python中Django框架和Flask框架的区别之前,我们需要先探讨如下几个问题。一、为什么要使用框架?为了更好地阐述这个问题,我们把开发一个应用的过程进行类比,往往开发一个应用(web应用、系统应用)跟建造房子的过程一样,需要先打地基,搭好骨架,然后一块砖一块砖叠上去。而开发一个应用呢?同样也需要一个好的架构设计,数据库建模,然后一个模块一个模块使用代码实现。如果开发一个软件应用不使用框架,和我们建房子时,每一块砖、每一根钢筋都需要自己生产出来本

系统 2019-09-27 17:56:18 2222

Python

FastDFS分布式系统在Docker和Python中的应用

fastdfs分布式系统在docker和python中的应用一、什么是FastDFS:1.文件上传交互过程:2.文件下载交互过程:二、Docker安装FastDFS1.通过镜像下载2.将容器上的文件夹映射到本地路径,启动tracker和storage服务器3.查看tracker和storage服务器是否开启三、FastDFS的Python客户端1.下载环境包2.定义自己的配置文件3.上传文件例子四、自定义django文件存储并且保存到FDFS服务器上1.在

系统 2019-09-27 17:54:32 2222

Python

Python 绘图,我只用 Matplotlib

01散点图散点图显示两组数据的值,如图1-1所示。每个点的坐标位置由变量的值决定,并由一组不连接的点完成,用于观察两种变量的相关性。例如,身高—体重、温度—维度。图1-1散点图示例使用Matplotlib的scatter()函数绘制散点图,其中x和y是相同长度的数组序列。scatter()函数的一般用法为:主要参数说明如下:x,y:数组。s:散点图中点的大小,可选。c:散点图中点的颜色,可选。marker:散点图的形状,可选。alpha:表示透明度,在0~

系统 2019-09-27 17:52:53 2222

Python

python3读csv文件 UnicodeDecodeError

使用pd.read_csv()读csv文件时,出现如下错误:UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0x82inposition743:invalidstartbyte出现原因:文件不是UTF8编码的,而系统默认采用UTF8解码。解决方法是改为对应的解码方式。解决办法:1、用记事本修改找到csv文件–》右键–》打开方式–》记事本打开记事本之后,选择头部菜单的“文件–》另存为”,可以看到文件的默认编码格式为

系统 2019-09-27 17:52:21 2222

Python

使用Python检测文章抄袭及去重算法原理解析

在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有

系统 2019-09-27 17:51:18 2222

Python

python 第4关 收纳的艺术 列表list 从列表提取[ ] 从列表切片

列表中的元素是有自己明确的“位置”的,所以即使看似相同的元素,只要在列表所处的位置不同,它们就是两个不同的列表。而字典相比起来就显得随和很多,调动顺序也不影响。因为列表中的数据是有序排列的,而字典中的数据是随机排列的。列表有序,要用偏移量定位;字典无序,便通过唯一的键来取值列表可嵌套其他列表和字典,字典也可嵌套其他字典和列表。如何取到最后的小芳列表与字典嵌套取数关键看最外面的是[]还是{}一个列表需要用中括号[]把里面的各种数据框起来,里面的每一个数据叫作

系统 2019-09-27 17:49:33 2222