背景由于工作性质,经常面对不同的问题,某些场景下SQL+Excel、常用办公软件不能处理,这时到网上找一些案例,自己动手用python处理。后续,借此博客记录比较典型的处理过程。后续,陆续实际处理的问题,如1.合并PDF2.拆分PDF3.敏感字段MD5脱敏4.从非架构化的大文本文件中提取指定条件的记录需求工作和生活中有时会遇到将多个pdf文件,合并成一个大文件的情况。例如,扫描时,普通扫描仪或打印机一页生成一个PDF,而一份资料实际多页。Adobe的收费版
系统 2019-09-27 17:57:30 2144
如果你对数据分析有所了解,一定听说过一些亲民的工具如Excel、Tableau、PowerBI等,都能成为数据分析的得力助手。但它们的不足也是显而易见的:操作繁琐,复用性差,功能相对局限单一。怎么解决呢?——PythonPython有很多优点,如果你能很好的运用到工作中,会发现工作效率大大提升,涨薪也是再正常不过的事情。Python优点一:“流程可控,工作高效”举个例子,Excel做分析的过程:定位空值-删除空值-修改数据格式-去除异常值-公式计算-数据透
系统 2019-09-27 17:56:50 2144
题目描述:给定一组不含重复元素的整数数组nums,返回该数组所有可能的子集(幂集)。说明:解集不能包含重复的子集。示例:输入:nums=[1,2,3]输出:[[3],[1],[2],[1,2,3],[1,3],[2,3],[1,2],[]]SOLUTION1:迭代法比较常规的迭代法思路,循环nums数组,每次访问其中元素,将其转化为数组并加到result二维数组当中。CODE:classSolution:defsubsets(self,nums):'''n
系统 2019-09-27 17:55:12 2144
接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。一、正则表达式基础1.1.概念介绍正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语法以及一个独立的处理引擎,在提供了正则表达式的语言里,正则表达
系统 2019-09-27 17:54:47 2144
datetime模块中包含五种基本类型:date、time、datetime、timedelta和tzinfo,tz是timezone的缩写,tzinfo用于表示时区信息。一,date类型date类型表示日期,是由year、month和day构成的对象1,初始化date对象使用date(year,month,day)函数来初始化date对象:fromdatetimeimportdatemydate=date(year,month,day)2,date对象函
系统 2019-09-27 17:54:44 2144
本文实例讲述了Python读写文件模式和文件对象方法。分享给大家供大家参考,具体如下:一.读写文件模式利用open()读写文件时,将会返回一个file对象,其基本语法格式如:open(filename,mode)其中,filename变量是一个包含了你要访问的文件名称的字符串值。而mode决定了你打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。注:这个参数是非强制的,默认文件访问模式为只读模式(r)例如,我们现在将一个字符串写入到test.
系统 2019-09-27 17:54:20 2144
一、文件的打开和创建1、打开复制代码代码如下:open(file,mode):>>>fo=open('test.txt','r')>>>fo.read()'hello\n'>>>fo.close()file(file,mode):>>>f=file('test.txt','r')>>>f.read()'hello\n'>>>f.close()mode可取值:2、创建用w/w+/a/a+模式打开即可。二、文件的读取1、String=FileObject.re
系统 2019-09-27 17:52:20 2144
一、定义函数def函数名():函数体代码例:#定义函数defemail():print('sendemail')#调用执行函数email()二、函数的返回值defemail():print("sendemail")return"发送成功"#没有return,默认返回Noneret=email()#函数return后面是什么值,ret等于返回值print(ret)注意:一旦遇到return,函数内部return以下的代码不再执行。三、函数的普通参数defem
系统 2019-09-27 17:51:12 2144
今天主要是来说一下怎么可视化来监控你的爬虫的状态。相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。1.成品图这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的
系统 2019-09-27 17:50:52 2144
1.reload()函数Python2:reload()函数封装在sys模块中,使用时:importsysreload()Python3:reload()不再封装在sys模块中,而是importlib,使用方式如下:importimportlibimportyourfilereload('yourfile')注意:使用reload()函数时需要import你的文件参考文章:https://blog.csdn.net/heifan2014/article/d
系统 2019-09-27 17:50:49 2144