简易的分布式文件系统本来初期打算用Hadoop2,可是后来有限的服务器部署了SolrCloud,各种站点,发现资源不够了,近10T的文件,已经几乎把服务器的磁盘全部用光。想来想去,由于目前架构基于Scala的,所以还是用ScalaAkka实现了一个简单版本的分布式文件系统。Scala版本是2.10.3:http://www.scala-lang.org,Akka版本是2.2.3:http://akka.io。所有文件随机放在不同的服务器上,在数据库中记录了
系统 2019-08-12 01:31:55 2203
常用终端命令(python虚拟环境+git)基础新建文件夹mkdir[文件夹名]新建文件touch[文件名]编辑文件vi[文件名]查看当前文件夹位置中的所有文件ls(-a/-all)-a:显示隐藏文件;-all:显示隐藏文件和属性python虚拟环境jupyternotebook添加虚拟环境变量(需要在该变量中)python-mipykernelinstall(--user)--name[环境名称]--display-name"[显示的名称]"#####查
系统 2019-09-27 17:56:37 2202
Python2和Python3中ran_input()和input()的区别input和raw_input都可以用来接收控制台输入在Python2中有raw_input()和input()两种input()其实是通过raw_input()实现的:definput(prompt):return(eval(raw_input(prompt))eval()函数用来执行一个字符串表达式,并返回表达式的值。分两种情况:当我们输入的是单纯的数字时:input返回的是数
系统 2019-09-27 17:56:33 2202
摘要在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值。这里就简单的介绍一下对于DataFrame去重和取重复值的操作。创建DataFrame这里首先创建一个包含一行重复值的DataFrame。DataFrame去重,可以选择是否保留重复值,默认是保留重复值,想要不保留重复值的话直接设置参数keep为False即可。3.取DataFrame重复值。大多时候我们都是需要将数据去重,但是有时候很我们也需要取重复数据,这个时候我
系统 2019-09-27 17:56:02 2202
阅读更多注:笔记2已补全#首字母大写.title()#.append()方法:可在列表或元组末尾添加元素主要在for循环中常用#在提列表元素是的索引是从0开始,负数表示倒数,没有索引则默认是第一个元素或者最后一个元素#列表排序详细在笔记1中###for循环##可参考笔记2#for**in**:下的代码缩进则表示要循环,没缩进则不循环#“:”一定要带上#创建不同类型的数值列表a=list(range(2,5,1))#(A,B,c)指的是从A开始数(包括A)往
系统 2019-09-27 17:54:53 2202
该GIF图来自于官网,文末有给出链接。描述依托于百度网盘巨大的的云存储空间,绝大数人会习惯性的将一些资料什么的存储到上面,但是有的私密链接需要提取码,但是让每个想下载私密资源的人记住每一个提取码显然是不现实的。这个时候,云盘万能钥匙诞生了,我们通过安装相应的浏览器插件就可以自动获获取相应链接的提取码。我在Github上看了一下,有WebJS版的,python版的貌似还没有找到,所以我参照了JS版本和官网的请求接口写了两种方式的获取脚本。实现下述两种方式的具
系统 2019-09-27 17:52:27 2202
一代码编排1缩进4个空格的缩进(编辑器都可以完成此功能),不要使用Tap,更不能混合使用Tap和空格。2每行最大长度79,换行可以使用反斜杠,最好使用圆括号。换行点要在操作符的后边敲回车。3类和top-level函数定义之间空两行;类中的方法定义之间空一行;函数内逻辑无关段落之间空一行;其他地方尽量不要再空行。二文档编排1模块内容的顺序:模块说明和docstring―import―globals&constants―其他定义。其中import部分,又按标准
系统 2019-09-27 17:51:16 2202
操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名代码:#-*-coding:utf-8-*-#----------------------------#程序:百度贴吧的小爬虫#日期:2015/03/28#语言:Python2.7#操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数#功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名#-----
系统 2019-09-27 17:51:10 2202
import1、执行对应文件2、引入变量import寻找模块从PATH路径寻找,查看PATH可以先导入sys模块然后打印sys.pathimport执行导入模块,是以当前py文件的PATH路径去找模块。假如当前文件导入了A模块,而这个模块又导入了B模块,如果当前文件恰好想用B模块里面的某个函数,这可能会出问题,因为当前文件调用B模块函数时候,是以当前文件PATH去找,当前文件PATH没有B模块。调用其他包里的模块,如图:ss.py调用add.py,语法:f
系统 2019-09-27 17:49:50 2202
王者荣耀这么久了,还没上王者?哈哈哈,看过来,是不是对英雄理解的不够透彻呢,是不是还没有很好的为英雄分类呢,今天就来看看英雄分类技术栈一、EM聚类简介二、爬取网上的英雄初始属性值三、做成饼图EM聚类简介EM英文名是ExpectationMaximization,也叫最大期望算法。在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVari
系统 2019-09-27 17:48:30 2202