Python

使用Python + fitz + PIL+ pytesseract 解析

之前想了很多种办法来解析PDF文件内容(Python读取PDF文件),一般针对电子版word或者Excel转化为PDF的PDF文件具有不错的效果,但是依然不能解析图片(图片中文字)内容,如果PDF是扫描版呢,那种方法就不行了。所以我又想了另一个办法,就是先把PDF文件转化为图片,然后再将图片进行OCR识别,得到最终PDF的内容。1把PDF转化为图片可以参考博文:windows下用Python把pdf文件转化为图片代码如下:importfitzPDF_pat

系统 2019-09-27 17:49:11 4841

CSS

你所不知的 CSS ::before 和 ::after 伪元素用法

CSS有两个说不上常用的伪类:before和:after,偶尔会被人用来添加些自定义格式什么的,但是它们的功用不仅于此。前几天发现了CreativeLinkEffects这个非常有意思的介绍创意链接特效的页面,里面惊人的效果大量使用到的特性除了transform属性进行变形之外,就是接下来要介绍的这两个伪元素了。CreativeButtonStyles一基本语法在了解进阶的应用之前,先来了解一下语法规则。平常仅仅需要将这两个伪元素用于添加一些自定义字符时,

系统 2019-08-29 22:22:39 4839

PHP

PHP扩展之hello word

一、下载源码。先到官网下载PHP的源代码,这里我用的是PHP5.3.5打开我们可以看到ext这个目录这目录是放所有的扩展的。在改目录下我们可以看到ext_skel的脚本下面我就用这个命令来生成扩展的基本架构。二、创建基本框架./ext_skel--extname=example这个命令会在ext目录下生成一个example目录,改目录下有以下文件#在目录下有不少文件,testmodule.c和config.m4是最重要的example.c#是我们扩展的主要

系统 2019-08-12 09:27:43 4839

redis

Redis 2.6.2 发布,高性能K/V服务器

Redis是一个高性能的key-value数据库。redis的出现,很大程度补偿了memcached这类keyvalue存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。2012-10-26发布2.6.2。上个版本是2012-10-23的2.6.0。主要修正2.6不能在Linux<2.6.17或glibc<2.6(如RHLE5)编译的问题。另外Linenoise升级,支持了Ct

系统 2019-08-12 01:55:45 4838

C++

你应当如何学习C++(以及编程)(rev#1)

http://blog.csdn.net/pongba/archive/2007/05/16/1611593.aspx你应当如何学习C++(以及编程)(rev#1)By刘未鹏(pongba)C++的罗浮宫(http://blog.csdn.net/pongba)Javascript是世界上最受误解的语言,其实C++何尝不是。坊间流传的错误的C++学习方法一抓就是一大把。我自己在学习C++的过程中也走了许多弯路,浪费了不少时间。为什么会存在这么多错误认识?原

系统 2019-08-29 23:24:13 4835

Javascript

11 个基于 JavaScript 的图表插件推荐

10个基于JavaScript的图表插件推荐http://www.iteye.com/news/25220http://www.highcharts.com/demo/适全在GPS显示坐标的:http://www.highcharts.com/demo/dynamic-click-to-add/dark-green时速油门图表插件http://www.rgraph.net/examples/gauge.html11个基于JavaScript的图表插件推荐

系统 2019-08-29 23:08:52 4835

Hbase

HBase二级索引与Join

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondaryindex,ITHbase,Facebook方案和官方Coprocessor的介绍。理论目标在HBase中实现二级索引与索引Join需要考虑三个目标:1,高性能的范围检索。2,数

系统 2019-08-12 09:30:06 4829

ASP.NET

使用ASP.NET Web Api构建基于REST风格的服务实

最近发现webapi很火,园内也有各种大神已经在研究,本人在asp.net官网上看到一个系列教程,原文地址:http://bitoftech.net/2013/11/25/detailed-tutorial-building-asp-net-web-api-restful-service/。于是打算跟着学一下,把学习过程记录在博客园的同时也分享给大家。每一篇结束后我都会把代码共享由于我也是刚开始入门技术能力有限,有问题大家一起讨论下吧系列导航一.使用Ent

系统 2019-08-29 22:21:59 4823

编程技术

内核处理流程

内核的组成1、中断处理2、进程管理:调度、控制、通讯、互斥、同步等3、原语管理:在核心中提供一系列原语,同步,通信,创建,撤销等进入内核的唯一入口:中断中断后进入核心,由硬件完成内核的执行特点1、由中断驱动:中断→内核→退出2、中断执行是连续的3、内核执行过程中在中断屏蔽状态下4、内核使用特权执行内核处理流程

系统 2019-08-12 01:32:09 4820

IOS

【一步一步学IOS5 】 如何在导航界面隐藏TabBar

前面的例子中,我们开发了一个tabbar(选项卡栏)应用程序。我们将导航控制器嵌入在tabbar控制器内。因此,当用户轻拍任一菜单项时,导航控制器切换到详细视图。但是tabbar在详细视图时,仍然占用了一些屏幕空间,我们需要隐藏tabbar,释放更多的屏幕空间。1.UIViewController类的hidesBottomBarWhenPushed属性在UIViewController中有一个属性:hidesBottomBarWhenPushed,它是一个

系统 2019-08-12 09:30:35 4808

Jquery

一些应该熟记于心的jQuery函数和技巧

一些应该熟记于心的jQuery函数和技巧文章将为读者讲述一些优秀的实现方法和技巧,正确地使用这些方法和技巧就能够充分利用这一框架为我们所提供的所有优点。AD:【51CTO独家特稿】现在使用jQuery的网站数不胜数,它能够成为成最为知名的JavaScript框架,肯定存在着某种原因。作为开发者,我们必须更深入地思

系统 2019-08-12 09:30:24 4807

Jquery

jQuery插件开发 - 其实很简单

【前言】jQuery已经被广泛使用,凭借其简洁的API,对DOM强大的操控性,易扩展性越来越受到web开发人员的喜爱,我在社区也发布了很多的jQuery插件,经常有人询问一些技巧,因此干脆写这么一篇文章给各位jQuery爱好者,算是抛砖引玉吧。【基础】a)样式很多人会认为样式是个很复杂的东西,需要沉着冷静的心态加上非凡的审美观才能设计出赏心悦目的UI,抛开图片设计不说,其实css也就是那么些属性:position,margin,padding,width,

系统 2019-08-29 22:25:31 4805

Hadoop

用 Hadoop 进行分布式并行编程, 第 1 部分

Hadoop简介Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统HDFS(HadoopDistributedFileSystem)。也许到目前为止,Hadoop还不是那么广为人知,其最新的版本号也仅仅是0.16,距离1.0似乎都还有很长的一段距离,但提及Hadoop一脉相承的另外两个开源项目Nutch和Lucene(三者的创始人都是DougCutting),

系统 2019-08-12 09:29:58 4798

redis

关于redis、memcache、mongoDB 的对比

从以下几个维度,对redis、memcache、mongoDB做了对比,欢迎拍砖1、性能都比较高,性能对我们来说应该都不是瓶颈总体来讲,TPS方面redis和memcache差不多,要大于mongodb2、操作的便利性memcache数据结构单一redis丰富一些,数据操作方面,redis更好一些,较少的网络IO次数mongodb支持丰富的数据表达,索引,最类似关系型数据库,支持的查询语言非常丰富3、内存空间的大小和数据量的大小redis在2.0版本后增加

系统 2019-08-12 01:31:51 4794