前言上项目的时候,遇见一次需求,需要把在线的其中一个collection里面的数据迁移到另外一个collection下,于是就百度了看到好多文章,其中大部分都是使用导入的方法,没有找到在线数据的迁移方法。于是写了python脚本,分享出来。思路:collection数据量比较大,所以一次性操作所有数据太大,于是分段执行操作。先分段按1000条数据量进行查询,处理成json数据把处理后的json数据发送到目的collection上即可实现:一、使用http的
系统 2019-09-27 17:52:33 1898
在之前学习的RDD和DataFrame数据集主要处理的是离线数据,随着时代发展进步,我们会发现越来越多数据是在源源不断发回到数据中心,同时需要立刻响应给用户,这样的情况我们就会用到实时处理,常用的场景有实时显示某商场一小时人流密度、实时显示当天火车站人口总数等等。接下来从实时数据源说起,实时数据源主要有:FileSourceSocketSourceFlumeSourceKafkaSourceFileSource指的是文件作为数据来源,常用的有本地文件fil
系统 2019-09-27 17:52:32 1898
前言学习一个库的最好的方式是了解这个库的源码和组成原理,有时候源码可能会略显生涩,这时候我们想通过查看文档来了解,所以我们可以通过输出库自带的描述文档来了解一个库。Numpy和Scipy模块numpy提供了数组对象,面向的任何使用者。scipy在numpy的基础上,面向科学家和工程师,提供了更为精准和广泛的函数。scipy几乎实现numpy的所有函数,一般而言,如果scipy和numpy都有这个函数的话,应该用scipy中的版本,因为scipy中的版本往往
系统 2019-09-27 17:52:27 1898
前言本篇文章主要介绍,如何利用Python来实现将文字转成语音。将文字转成语音主要有两种不同的实现方法:先将文字转成语音,然后再通过读取语音实现发音、直接调用系统内置的语音引擎实现发音,后一种方法的实现主要利用第三方库。环境Python版本:Anaconda4.4.10操作系统:win10注意:在使用第三方库的时候,不同的操作系统和Python版本代码可能有所差别。调用api可以调用第三方的语音合成api生成音频文件,然后再播放音频文件即可,这里我使用的是
系统 2019-09-27 17:52:20 1898
目录python多线程详解一、线程介绍什么是线程为什么要使用多线程二、线程实现threading模块自定义线程守护线程主线程等待子线程结束多线程共享全局变量互斥锁递归锁信号量(BoundedSemaphore类)事件(Event类)三、GIL(GlobalInterpreterLock)全局解释器锁python多线程详解一、线程介绍什么是线程线程(Thread)也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位
系统 2019-09-27 17:51:56 1898
原文链接:https://mp.csdn.net/postedit/98402744学习Python您是否会面临以下问题?“网上充斥着大量的学习资源、书籍、视频教程和博客,但是大部分都是讲解基础知识,不够深入;也有的比较晦涩,难以理解”。CSDNPython学习社群将帮助您过滤网上的垃圾教程资源的技能,同时,您可以在社群内与其他有经验的程序员交流获取帮助。CSDNPython社群专属福利---7月公开课表如下:课程一《Python小白重难点解析》7月24日
系统 2019-09-27 17:51:47 1898
一、计算机结构五大部件:输入设备、输出设备、存储器、运算器、控制器二、cpu、硬盘、内存三者之间的关系cpu:是计算机运算核心和控制中心,让电脑的各个部件顺利工作,起到协调和控制作用硬盘:存储资料和软件等数据设备,有容量大,断电数据不丢失的特点,也被人们称之为“数据仓库”内存:a、负责硬盘等硬件上的数据与cpu之间的数据交换处理。b、缓存系统中的临时数据。c、断电后数据丢失三、变量的命名规则:1、要具有描述性2、变量名只能_、数字、字母组成,不能有空格或特
系统 2019-09-27 17:51:18 1898
filter(functionorNone,sequence),其中sequence可以是list,tuple,string。这个函数的功能是过滤出sequence中所有以元素自身作...filter(functionorNone,sequence),其中sequence可以是list,tuple,string。这个函数的功能是过滤出sequence中所有以元素自身作为参数调用function时返回True或bool(返回值)为True的元素并以列表返回.
系统 2019-09-27 17:50:48 1898
这两天一直在windows上做用python(版本是3.6)抽取pdf中内容的东西,主要就是从pdf中提取出里面的字体和表格内容。尝试了好些个库,现在算是找到比较符合我需求(比较好用)的pdf解析的了。在这个过程中,用了以下几个库:PDFminerPDFminer算是一个还算不错的吧,安装直接用pip安装就行。如下:pipinstallpdfminer3k它这个对pdf中内容做了好些个对象,用这些对象来存储不同的信息,比如表格有LTFigure对象存储、文
系统 2019-09-27 17:50:26 1898
创建类Python类使用class关键字来创建。简单的类的声明可以是关键字后紧跟类名:复制代码代码如下:classClassName(bases):'classdocumentationstring'#'类文档字符串'class_suite#类体实例化通过类名后跟一对圆括号实例化一个类复制代码代码如下:mc=MyClass()#instantiateclass初始化类‘int()'构造器def__int__(self):pass注意:self类似Java的
系统 2019-09-27 17:50:12 1898