上面我们学习了RDD如何转换,即一个RDD转换成另外一个RDD,但是转换完成之后并没有立刻执行,仅仅是记住了数据集的逻辑操作,只有当执行了Action动作之后才会真正触发Spark作业,进行算子的计算执行操作有:reduce(func)collect()count()first()take(n)takeSample(withReplacement,num,[seed])takeOrdered(n,[ordering])saveAsTextFile(path
系统 2019-09-27 17:52:33 2128
在使用peewee框架时,默认是不会出现日志消息的。frompeeweeimportModel,CharField,DateTimeField,IntegerFieldfrompeewee_mssqlimportMssqlDatabasedb=MssqlDatabase(database='test',host='.',user='sa',password='sa')classBaseModel(Model):classMeta:database=dbcl
系统 2019-09-27 17:52:28 2128
json是一种轻量级的数据交换格式,也可以说是一种配置文件的格式这种格式的文件是我们在数据处理经常会遇到的python提供内置的模块json,只需要在使用前导入即可你可以通过帮助函数查看json的帮助文档json常用的方法有load、loads、dump以及dumps,这个都属于python初级,我不做过多解释json可以结合数据库一起使用,在这以后要处理大量数据时非常有用下面我们正式来利用数据挖掘对json文件进行处理现在很多网站都运用了Ajax,所以一
系统 2019-09-27 17:51:28 2128
一.if语句1.if语句作用:让程序根据条件选择性地执行某条语句或某些语句说明:if语句又叫条件语句,也叫分支语句语法:if真值表达式1:语句块1elif真值表达式2:语句块2...else:语句块4语法说明:elif子句可以有0个,1个或多个else子句可以有0个或1个且只能放在此if语句的最后要求:if语句内部的语句通常要以4个空格的缩进来表示包含关系,相同的缩进格式代表相同的所属级别示例:#输入一个数字,判断这个数是0,还是正数,还是负数n=int(
系统 2019-09-27 17:51:22 2128
继上一篇文章使用xlrd来读Excel之后,这一篇文章就来介绍下,如何来写Excel,写Excel我们需要使用第三方库xlwt,和xlrd一样,xlrd表示readxls,xlwt表示writexls,同样目前版本只支持97-03版本的Excel。xlwt下载:xlwt0.7.4安装xlwt安装方式一样是pythonsetup.pyinstall就可以了,或者直接解压到你的工程目录中。API介绍获取一个xls实例复制代码代码如下:xls=ExcelWrit
系统 2019-09-27 17:51:03 2128
看懂巴菲特推荐的指数基金定投,Python验证看懂巴菲特推荐的指数基金定投,Python验证超越股神,你这辈子是不可能了的啦,但是超越身边的普通人,那是足够了,只要你坚持定投,坚持定投正确的标的,直到成功为止,建立好市场的心里站,不要在股市中浮浮沉沉。我在大学期间,我就开始学习理财投资,直到我出大学毕业,踏入社会,我领到第一份工资,我觉得我要开始寻找我的定投标的了,我可以推荐你一款非常好用的股票软件,同花顺,这是我当初学习股票得来的。最近身边的朋友都陆续走
系统 2019-09-27 17:50:08 2128
打开文件open函数返回一个文件对象,基本语法:●file_object=open(file_name,access_mode='r'[,buffering=-1])file_name是包含要打开的文件名字的字符串,它可以是相对路径或者绝对路径.●可选变量access_mode也是一个字符串,代表文件打开的模式.通常,文件使用模式‘r',‘w',或是‘a'模式来打开,分别代表读取,写入和追加.●另外一个可选参数buffering用于指示访问文件所采用的缓冲
系统 2019-09-27 17:50:07 2128
1、python大量的库为数据分析提供了完整的工具集2、比起MATLAB、R语言等其他主要用于数据分析语言,python语言功能更加健全3、python库一直在增加,算法的实现采取的方法更加创新4、python能很方便的对接其他语言,比如c、java等什么是IPython?IPython是一个python的交互式的shell(它默认的pythonshell要好用的多、强大的多)1、支持代码的自动补全、自动缩进,已经支持bashshell2、JupyterN
系统 2019-09-27 17:48:58 2128
【摘要】本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为解析工具。1.本节目标本节中,我们要提取出猫眼电影TOP100的电影名称、时间、评分、图片等信息,提取的站点URL为http://maoyan.com/board/4,提取的结果会以文件形式保存下来。2.准备工作在本节开始之前,请确保已经正确安装好了r
系统 2019-09-27 17:48:56 2128
python基础学习笔记(十)2013-05-0800:30虫师阅读(...)评论(...)编辑收藏魔法方法、属性------------------------准备工作为了确保类是新型类,应该把_metaclass_=type入到你的模块的最开始。classNewType(Object):mor_code_hereclassOldType:mor_code_here在这个两个类中NewType是新类,OldType是属于旧类,如果前面加上_metacla
系统 2019-09-27 17:48:53 2128
>>>lst=['x'forninrange(5)]>>>print(lst)['x','x','x','x','x']>>>lst=['z']*5>>>print(lst)['z','z','z','z','z']>>>lst=[0]*3>>>print(lst)[0,0,0]
系统 2019-09-27 17:48:48 2128
配置文件配置文件[]中为section命名,幸运28平台搭建q<277.03.4.83.6>section的命名可以包含空格,每个section下面以键值对的方式保存配置内容,在读取配置时键值对全部解析为字符串,因此在配置时无需为字符串添加引号settings.conf文件定义[mysqlsettings]host=10.250.218.51port=3306username=adminpassword=admin123coding=utf8[oracle
系统 2019-09-27 17:48:43 2128
前言Python生成器(generator)并不是一个晦涩难懂的概念。相比于MetaClass和Closure等概念,其较为容易理解和掌握。但相对于程序结构:顺序、循环和分支而言其又不是特别的直观。无论学习任何的东西,概念都是非常重要的。正确树立并掌握一些基础的概念是灵活和合理运用的前提,本文将以一种通俗易懂的方式介绍一下generator和yield表达式。1.Iterator与Iterable首先明白两点:Iterator(迭代器)是可迭代对象;可迭代
系统 2019-09-27 17:48:41 2128
xml模块处理文档:importxml.etree.ElementTreeasETtree=ET.parse('xmlfile')#ET.parse()解析xml文档root=tree.getroot()#获取根节点print(root.tag)#root.tag获取根节点标签这里是dataforiinroot:print(i.tag)#获取根节点下的标签print(i.attrib)#获取根节点下的标签属性标签>>:country、标签属性>>:{'na
系统 2019-09-27 17:47:56 2128
Matplotlib简介Matplotlib是一个Python工具箱,用于科学计算的数据可视化。借助它,Python可以绘制如Matlab和Octave多种多样的数据图形。最初是模仿了Matlab图形命令,但是与Matlab是相互独立的.通过Matplotlib中简单的接口可以快速的绘制2D图表初试MatplotlibMatplotlib中的pyplot子库提供了和matlab类似的绘图API.复制代码代码如下:importmatplotlib.pyplo
系统 2019-09-27 17:47:25 2128