最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但ApacheHadoop的生态系统大部分都是用Java来实现的,也是为Java准备的,这让我很恼火。所以,我的头等大事变成了寻找一些Python可以用的Hadoop框架。在这篇文章里,我会把我个人对这些框架的一些无关科学的看法写下来,这些框架包括:Hadoop流mrjobdumbohadoopyp
系统 2019-09-27 17:48:52 1720
代码很简单,功能也很简单=w=webpage2pdf#!/usr/bin/envpython3importsystry:fromPyQt4importQtWebKitfromPyQt4.QtCoreimportQUrlfromPyQt4.QtGuiimportQApplication,QPrinterexceptImportError:fromPySideimportQtWebKitfromPySide.QtCoreimportQUrlfromPySide
系统 2019-09-27 17:48:50 1720
1.遍历一个文件夹apks='C:\\xxx'filenames=os.listdir(apks)forfilenameinfilesnames:#此处遍历出来的非完整路径,只是文件名字do_something(apks+"\\"+filename)#绝对路径需要拼接处理2.判断一个文件或文件夹是否存在importosos.path.exists(test_file.txt)3.string转dict,dict转string#string转dict,使用e
系统 2019-09-27 17:48:45 1720
frommultiprocessingimportProcess,Queuefromtimeimporttimedeftask_handler(current_list,result_queue):total=0fornincurrent_list:total+=nresult_queue.put(total)defmain():processes=[]number_list=[xforxinrange(1,10000001)]result_queue=Q
系统 2019-09-27 17:48:29 1720
本周的PyCoder'sWeekly上分享了一篇小文章,它里面提到的冷知识很有意思,我稍作补充,分享给大家。它提到的部分问题,读者们可以先思考下:若两个元组相等,即a==b且aisb,那么相同索引的元素(如a[0]、b[0])是否必然相等呢?若两个对象的hash结果相等,即hash(a)==hash(b),那么它们是否必然相等呢?答案当然都为否(不然就不叫冷知识了),大家可以先尝试回答一下,然后再往下看。-----思考分割线-----好了,先来看看第一个问
系统 2019-09-27 17:48:26 1720
最近被多线程给坑了下,没意识到类变量在多线程下是共享的,还有一个就是没意识到内存释放问题,导致越累越大1.python类变量在多线程情况下的是共享的2.python类变量在多线程情况下的释放是不完全的3.python类变量在多线程情况下没释放的那部分内存是可以重复利用的importthreadingimporttimeclassTest:cache={}@classmethoddefget_value(self,key):value=Test.cache.
系统 2019-09-27 17:48:22 1720
matplotlib是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。这篇我们用matplotlib从构造最简单的bar一步一步向复杂的bar前行。什么是最简单的bar,看如下语句你就知
系统 2019-09-27 17:48:15 1720
有一些任务,可能事先需要设置,事后做清理工作。对于这种场景,Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理,你需要获取一个文件句柄,从文件中读取数据,然后关闭文件句柄。如果不用with语句,代码如下:file=open("/tmp/foo.txt")data=file.read()file.close()这里有两个问题。一是可能忘记关闭文件句柄;二是文件读取数据发生异常,没有进行任何处理。下面是处理异常的加强版本:file
系统 2019-09-27 17:48:03 1720
在Python中可以存储很大的值,如下面的Python示例程序:x=10000000000000000000000000000000000000000000;x=x+1print(x)输出:10000000000000000000000000000000000000000001在Python中,整数的值不受位数的限制,可以扩展到可用内存的限制。因此,我们永远不需要任何特殊的安排来存储大数字(想象一下在C/C++中进行上述算术)。在Python3中,对于所有
系统 2019-09-27 17:48:01 1720
这货很强大,必须掌握文档链接http://docs.python.org/2/library/itertools.htmlpymotw链接http://pymotw.com/2/itertools/基本是基于文档的翻译和补充,相当于翻译了itertools用于高效循环的迭代函数集合组成总体,整体了解无限迭代器复制代码代码如下:迭代器参数结果例子count()start,[step]start,start+step,start+2*step,...count
系统 2019-09-27 17:47:57 1720