首先,看看本文所面向的应用场景:我们有一个数据集df,现在想统计数据中某一列每个元素的出现次数。这个在我们前面文章《如何画直方图》中已经介绍了方法,利用value_counts()就可以实现(具体回看文章)但是,现在,我们考虑另外一个场景,我们假如要想统计其中两列元素出现次数呢?举个栗子:在df数据集中,如果我们想统计A、B两列的元素的出现情况,也就是说,得到如下表。从上面的最后一列可以看到,在A、B两列中,12出现了2次,14出现1次,16出现1次,23
系统 2019-09-27 17:54:01 2361
什么是Selenium库:自动化测试工具,支持多种浏览器。支持的浏览器包括IE(7,8,9,10,11),MozillaFirefox,Safari,GoogleChrome,Opera等。爬虫中主要用来解决JavaScript渲染的问题。用于驱动浏览器,并且给予浏览器动作。安装Selenium库:pip3installseleniumSelcnium库的使用详解:在使用之前我们需要安装webDriver驱动,具体安装方式,自行百度,切记版本对应。基本使用
系统 2019-09-27 17:47:40 2361
这次,我们来学习一种经典的降维方法:线性判别分析(LinearDiscriminantAnalysis,以下简称LDA).在前面博客中(点我)我们讲解了PCA降维算法。PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。PCA优缺点:优点:1.最小误差2.提取了主要信息缺点:PCA将所有的样本(特征向量集合)作为一个整体对待,去寻找一个均方误差最小意义下的最优线性映射投影,而忽略了类别属性,而它
系统 2019-09-27 17:45:40 2361
在Python中,有四类最常见的内建容器类型:列表(list)、元组(tuple)、字典(dict)、集合(set)。通过单独或是组合使用它们,可以高效的完成很多事情。Python语言自身的内部实现细节也与这些容器类型息息相关。比如Python的类实例属性、全局变量globals()等就都是通过字典类型来存储的。在这篇文章里,我首先会从容器类型的定义出发,尝试总结出一些日常编码的最佳实践。之后再围绕各个容器类型提供的特殊机能,分享一些编程的小技巧。当我们谈
系统 2019-09-27 17:45:32 2361
(在lua中通过loadfile,setfenv实现)python当然也可以:catconfig.pybar=10foo=100catpython_as_config.py:ns={}execfile('config.py',ns)print"\n".join(sorted(dir(ns)))print"*"*80printns['foo']printns['bar']缺点是不像lua那么可以以成员的方式访问table中的变量,如ns.foo,ns.bar
系统 2019-09-27 17:38:37 2361
最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。1.安装tesseract在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。在Ubuntu中你仅仅需要运行以下命令:这将会安装支持3种不同语言的tesseract。2.安装PyOCR现在我们还需要安装tesseract的Python接口。幸运的是
系统 2019-09-27 17:37:44 2361
今天,我已经准备了一个新的游戏–SkyWalker。基本上–这是用飞飞行模拟射击类游戏。我们的目标到达终点线。这个游戏还有其它一些特点,例如使用飞机运动动画和爆炸动画,多按键处理(例如同时移动和攻击),有一定的水平长度,增强了碰撞检测(现在的敌人可能会损坏我们的飞机),生命值和分数等游戏参数。你可以点击这里阅读这一系列教程的前一篇文章:html5游戏制作入门系列教程(七)。我们将基于之前的程序和代码进行开发。这里有我们的演示和下载包:在线演示好吧,下载所需
系统 2019-08-29 23:45:44 2361
JDBC批量Insert深度优化(没事务)最近在做一个数据同步分发工具,高并发,高效率,异步非实时是主要特点。为此,选择的方案是JDBC、只有两种操作,插入和更新。对于更新,只能逐条分批就可以了,优化空间不大。对于插入,则可以做批量的优化,优化的策略只能是具体问题具体分析,以测试结论为主要依据了。环境:MySQL5.1RedHatLinuxAS5JavaSE1.5DbConnectionBroker微型数据库连接池测试的方案:执行10万次Insert语句,
系统 2019-08-29 23:37:52 2361
所谓万事开头难,废话就不说那么多了,直接进入正题吧。现在maven2版本跟XP一样,官方已经不维护了,所以,我们还是去下载最新的maven3吧,毕竟3肯定比2好用,原因是什么,这个就不说了。maven下载页面:http://maven.apache.org/download.html,下载细节就省略一万字。首先看看你有木有安装了JDK(能用maven的,应该都会装了jdk吧...),如图然后解压你下载的mavenzip压缩包,如下然后去配置maven的环境
系统 2019-08-29 22:31:26 2361
1、首先你得安装Oracle数据库服务器端和客户端软件,在安装过程中要注意的是,选择oracle的安装目录,切记不要用中文目录或的带空格的目录。下载地址:http://hi.baidu.com/dashuaiwang/blog/item/42f8e7fab96978d6b58f314b.html/cmtid/d5bba9190dd0904a42a9ad772、安装结束后,会提示你记住一些东西。也就是一些网址,这个也很重要。下面是我的oracle提示的信息:
系统 2019-08-29 22:29:10 2361