这两天一直在windows上做用python(版本是3.6)抽取pdf中内容的东西,主要就是从pdf中提取出里面的字体和表格内容。尝试了好些个库,现在算是找到比较符合我需求(比较好用)的pdf解析的了。在这个过程中,用了以下几个库:PDFminerPDFminer算是一个还算不错的吧,安装直接用pip安装就行。如下:pipinstallpdfminer3k它这个对pdf中内容做了好些个对象,用这些对象来存储不同的信息,比如表格有LTFigure对象存储、文
系统 2019-09-27 17:50:26 1967
我的Python学习之旅panzervipanzervi一个打赌必输,但却选择交易为职业的赌棍上个月,公司招了几位Python程序猿。在他们的宣传鼓舞下,我觉得,为了将来不落伍,有必要学习一下这门技能。能写爬虫,能数据分析,能写前端,还能写机器学习。这玩意这么强大!看来,我这一直是人工半量化的主,如果学会Python应该就能完全机器自动交易了。就先把这个定为一个小目标吧。遂于11月份开始准备学习。新来的小伙子很热情,推荐了两个网站学习基础知识:一个是“廖雪
系统 2019-09-27 17:50:03 1967
一、写在前面前几天在微信上看到这样一篇文章,链接为:https://mp.weixin.qq.com/s/rl6Sgv3uk_IpoFAx6cWa8w,在这篇文章中,有这样一段话,吸引了我的注意:在Linux中ls是一个使用频率非常高的命令了,可选的参数也有很多,算是一条不得不掌握的命令。Python作为一门简单易学的语言,被很多人认为是不需要认真学的,或者只是随便调个库就行了,那可就真是小瞧Python了。那这次我就要试着用Python来实现一下Linu
系统 2019-09-27 17:49:51 1967
最近越发感觉到限制我对Python运用、以及读懂别人代码的地方,大多是在于对数据的处理能力。其实编程本质上就是数据处理,怎么把文本数据、图像数据,通过python读入、切分等,变成一个N维矩阵,然后再带入别人的模型,bingo~跑出来一个结果。结果当然也是一个矩阵或向量的形式。所以说,之所以对很多模型、代码束手无策,其实还是没有掌握好数据处理的“屠龙宝刀”,无法对海量数据进行“庖丁解牛”般的处理。因此,我想以一个别人代码中的一段为例,仔细琢磨文本数据处理的
系统 2019-09-27 17:49:36 1967
环境spyder(python3.6)代码:fromflaskimportFlask,requestimportjsonimportsysdefaultencoding='utf-8'importloggingdeftt(name,age):result_str="%s今年%s岁"%(name,age)returnresult_strapp=Flask(__name__)@app.route("/test_1.0",methods=["GET"])defc
系统 2019-09-27 17:49:36 1967
很多初学者会使用windows作为开发机使用,今天就来看下如何在win10和Linux下分别安装Python虚机环境。虚机环境有非常多的优点,今天我们用的虚拟环境是virtualenv。virtualenv用于创建独立的Python环境,多个Python相互独立,互不影响,它能够:1.在没有权限的情况下安装新套件2.不同应用可以使用不同的套件版本3.套件升级不影响其他应用win10下安装1.打开cmd安装虚拟环境包pipinstallvirtualenvw
系统 2019-09-27 17:49:26 1967
词云是一种非常漂亮的可视化展示方式,正所谓一图胜过千言万语,词云在之前的项目中我也有过很多的使用,可能对于我来说,一种很好的自我介绍方式就是词云吧,就像下面这样的:个人觉还是会比枯燥的文字语言描述性的介绍会更吸引人一点吧。今天不是说要怎么用词云来做个人介绍,而是对工作中使用到比较多的词云计较做了一下总结,主要是包括三个方面:1、诸如上面的简单形式矩形词云2、基于背景图片数据来构建词云数据3、某些场景下不想使用类似上面的默认的字体颜色,这里可以自定义词云的字
系统 2019-09-27 17:48:59 1967
原文链接:https://mp.weixin.qq.com/mp/profile_ext?action=home\x26amp;__biz=MzI0ODcxODk5OA==\x26amp;scene=124#wechat_redirect作者|NathanJ.Goldbaum译者|弯月,责编|屠敏来源|CSDN(ID:CSDNnews)【导语】Rust也能实现神经网络?在前一篇帖子中,作者介绍了MNIST数据集以及分辨手写数字的问题。在这篇文章中,他将利用
系统 2019-09-27 17:48:50 1967
客户要求将微信的带参二维码增加log,首次生成的时候log直接是个没颜色的,客户想要给点颜色看看,第一次生成图片如下生成的客户需要的原因是因为底图的数据通道和log的数据通道不同为L8像素黑白,log为RGB3x8位像素真彩通道一个图片可以包含一到多个数据通道,如果这些通道具有相同的维数和深度,Pil允许将这些通道进行叠加模式11位像素,黑和白,存成8位的像素L8位像素,黑白P8位像素,使用调色板映射到任何其他模式RGB3×8位像素,真彩RGBA4×8位像
系统 2019-09-27 17:48:30 1967
本周的PyCoder'sWeekly上分享了一篇小文章,它里面提到的冷知识很有意思,我稍作补充,分享给大家。它提到的部分问题,读者们可以先思考下:若两个元组相等,即a==b且aisb,那么相同索引的元素(如a[0]、b[0])是否必然相等呢?若两个对象的hash结果相等,即hash(a)==hash(b),那么它们是否必然相等呢?答案当然都为否(不然就不叫冷知识了),大家可以先尝试回答一下,然后再往下看。-----思考分割线-----好了,先来看看第一个问
系统 2019-09-27 17:48:26 1967