使用流程:-导包:frombs4importBeautifulSoup-使用方式:可以将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或属性去查找指定的节点内容。(1)转化本地文件:-soup=BeautifulSoup(open(‘本地文件’),‘lxml’)(2)转化网络文件(与requests配合):-page_text=requests.get(url=url,headers=headers).text-soup=Bea
系统 2019-09-27 17:52:15 2498
1.过拟合定义+处理1.1过拟合概述(低偏差,高方差)定义:过拟合简单的描述就是在训练集上的表现很好,但在未见过的测试集上的表现却较差。专业一点的定义就是:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'也属于H,使得在训练样例上h的错误率小于h',但是在整个实例分布上h'比h的错误率小,那么则称假设h过度拟合训练数据。危害:一个过拟合的模型试图连“误差”都去解释,而实际上噪音是不需要解释的,这个解释的过程导致模型的泛化能力较差,模型在预测集上
系统 2019-09-27 17:51:55 2498
方法说明__init__构造方法,用于类的初始化,当类被启用时就会执行__del__折构方法,当类被删除时执行,进行一些资源的释放构造方法,根据传递的参数初始化类的属性classPerson:def__init__(self,age,sex):self.age=ageself.sex=sexdefinfo(self):print("年龄:%d"%self.age)per=Person(18,'男')per.info()折构方法,当对象被删除时就会调用这个方
系统 2019-09-27 17:50:16 2498
人机猜拳比赛完成人机猜拳互动游戏的开发,用户通过控制台输入实现出拳,电脑通过程序中的随机数实现出拳,每一局结束后都要输出结果。当用户输入n时停止游戏,并输出总结果。#!/usr/bin/envpython#-*-coding:UTF-8-*-#人和机器猜拳游戏#选择角色1曹操2张飞3刘备#角色猜拳1剪刀2石头3布玩家输入一个1-3的数字#电脑出拳随机产生1个1-3的数字,提示电脑出拳结果,本局对战结果...赢...输,是否继续?y/n#输出结果角色赢几局电
系统 2019-09-27 17:48:17 2498
python实现建造者模式前言无论是在现实世界中还是在软件系统中,都存在一些复杂的对象,它们拥有多个组成部分,如汽车,它包括车轮、方向盘、发送机等各种部件。而对于大多数用户而言,无须知道这些部件的装配细节,也几乎不会使用单独某个部件,而是使用一辆完整的汽车,可以通过建造者模式对其进行设计与描述,建造者模式可以将部件和其组装过程分开,一步一步创建一个复杂的对象。用户只需要指定复杂对象的类型就可以得到该对象,而无须知道其内部的具体构造细节.介绍建造者模式(Bu
系统 2019-09-27 17:45:45 2498
具体内容如下:1os.system例如ipython中运行如下命令,返回运行状态statusos.system('cat/etc/passwdqc.conf')min=disabled,24,11,8,7max=40passphrase=3match=4similar=denyrandom=47enforce=everyoneretry=3Out[6]:02os.popen()popen(command[,mode='r'[,bufsize]])->pip
系统 2019-09-27 17:38:06 2498
Python很慢和/或它不是的两个最常见的原因高性能:解读GIL第一个是相当直接的,但在高级别编译器将更高级别的语言翻译成更低级别(更快)的语言,因此编译语言几乎总是比非编译语言执行得更快。这个经验法则有一些例外(例如JIT可能比AOT编译更快的情况),但它们会分散讨论。第二个是更臭名昭着,但是Python有一个叫做全局解释器锁的东西,它通过强制解释器一次只在一个进程(Python解释器的实例)中执行单个线程来基本上防止多线程。它的工作原理也很有趣,但也像
系统 2019-09-27 17:57:24 2497
一、K近邻算法概念K近邻(k-NearestNeighbor,简称kNN)学习是一种或常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将这k个样本的实质输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或者加权投票,距离越近的样本权重
系统 2019-09-27 17:57:18 2497
上一关,我们学习了Scrapy框架,知道了Scrapy爬虫公司的结构和工作原理。在Scrapy爬虫公司里,引擎是最大的boss,统领着调度器、下载器、爬虫和数据管道四大部门。这四大部门都听命于引擎,视引擎的需求为最高需求。我们还通过实操爬取豆瓣Top250图书的项目,熟悉了Scrapy的用法。这一关,我会带你实操一个更大的项目——用Scrapy爬取招聘网站的招聘信息。你可以借此体验一把当Scrapy爬虫公司CEO的感觉,用代码控制并操作整个Scrapy的运
系统 2019-09-27 17:56:18 2497
码字不易,喜欢请点赞!!!背景:其实两年前就爬了天眼查的很多信息,包括电话、地址等基本信息之外,还有公司的股东、专利以及对外投资等信息,但是当时的电脑没备份,代码都没了。这次山东的某个教育机构有偿找我帮爬天眼查公司电话以及地址信息,所以就重新爬了一下天眼查。准备:selenium+PhatomJS或者selenium+Firefox我这里直接用的后者selenium+Firefox思路爬取这部分信息的话,代码其实不难,主要包括模拟登陆、获得页面网址以及抓取
系统 2019-09-27 17:56:18 2497
刚刚开始学习python,当前看到了函数这一节。结合数组操作,写了个非递归的全排列生成。原理是插入法,也就是在一个有n个元素的已有排列中,后加入的元素,依次在前,中,后的每一个位置插入,生成n+1个新的全排列。因为Python切割数组或者字符串,以及合并比较方便,所以,程序会节省很多代码。defgetArrayInsertCharToStr(STR,CHAR):arr=[]s_len=len(STR)index=0whileindex<=s_len:#分割
系统 2019-09-27 17:56:11 2497
Python实现自动发送邮件--自动抓取博客/网站中留言的邮箱并发送相应邮件背景脚本要解决的问题:实现方法代码及解析1.AutoSendEmailByBlogComments.py2.FileOperation.py3.SendEmail.py备注:邮箱SMTP设置背景在各大论坛、博客上,很多User通过留言邮箱获取相关资料,但是留言人数过多了,对于博主来说一个一个发送相关邮件太繁琐了,同时也经常不能及时发现新评论,效率太低。。。我是个懒人,这当然也不能忍
系统 2019-09-27 17:55:56 2497
【一个任务】这节课我们来完成一个任务:将文件record.txt中的数据进行分割,并按照以下规律保存起来:1.小甲鱼的对话单独保存为boy_*.txt的文件(去掉"小甲鱼:")2.客服的对话单独保存为girl_*.txt的文件(去掉"客服:")3.文件中共有4段对话,分别保存为boy_1.txt,girl_1.txt,boy_2.txt,girl_2.txt,boy_3.txt,girl_3.txt,boy_4.txt,girl_4.txt共8个文件。PS
系统 2019-09-27 17:55:12 2497
前言众所周知,python拥有丰富的内置库,还支持众多的第三方库,被称为胶水语言,随机函数库random,就是python自带的标准库,他的用法极为广泛,除了生成比较简单的随机数外,还有很多功能。使用random库:importrandomrandom库主要函数:函数名说明用法random()生成一个0~1之间的随机浮点数,范围0<=n<1.0random.random()uniform(a,b)返回a,b之间的随机浮点数,范围[a,b]或[a,b),取决
系统 2019-09-27 17:51:33 2497
faster-rcnn错误信息:tensorflow.python.framework.errors_impl.InvalidArgumentError:Assignrequiresshapesofbothtensorstomatch.lhsshape=[21]rhsshape=[2]1Traceback(mostrecentcalllast):2File"C:\Users\Administrator\AppData\Local\Programs\Pyth
系统 2019-09-27 17:51:07 2497