因为需要对数据处理,将excel数据导入到数据库,记录一下过程。使用到的库:xlrd和pymysql(如果需要写到excel可以使用xlwt)直接丢代码,使用python3,注释比较清楚。importxlrdimportpymysql#importimportlib#importlib.reload(sys)#出现呢reload错误使用defopen_excel():try:book=xlrd.open_workbook("XX.xlsx")#文件名,把文
系统 2019-09-27 17:47:02 1977
分析分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图:在里面的请求中,最后发现它是以ajax加载的数据,数据格式为json,如图:圈住的部分是我们需要的数据,然后复制它的网址为https://www.douyu.com/gapi/rknc/directory/yzRec/1,出于学习目的只爬取第一页(减少服务器压力)。然后把网址放到浏览器中测试是否可以访问。如图:结果正常。分析json数据,提取图片链接最后分析发现
系统 2019-09-27 17:46:57 1977
仔细研读后学习了三个函数:eval:计算字符串中的表达式exec:执行字符串中的语句execfile:用来执行一个文件需注意的是,exec是一个语句,而eval()和execfile()则是内建built-in函数。Python2.7.2(default,Jun122011,15:08:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinf
系统 2019-09-27 17:46:53 1977
对Python中正则表达式的理解,主要就是对符号的理解,本文即对Python中常用的正则表达式符号进行简析。其主要的符号有:.默认匹配一个字符,不包含换行符,如果设置DOTALL则匹配换行符^匹配行首$匹配行尾*匹配0个或者多个重复+匹配一个或者多个重复?匹配一个或者零个重复*?,+?,??按照非贪婪模式匹配{m},{m,n},{m,n}?分别匹配m个重复,m至n个重复,m至n个重复按照非贪婪模式\转义[][abc],[a-z][^a-z]|或者匹配'a|
系统 2019-09-27 17:46:52 1977
(1)方法一、直接用a标签的href+数据库中文件地址,即可下载。缺点:wordexcel是直接弹框下载,对于imagetxt等文件的下载方式是直接在新页面打开。(2)方法二、在python后台对下载内容进项处理,返回内容直接弹出下载框。#后台处理函数defdownloadFile(req):filename=basePath+req.GET['url']deffile_iterator(file_name,chunk_size=512):withopen
系统 2019-09-27 17:46:33 1977
介绍python使用百度智能去的文字识别功能,可以识别截图中的文,登陆路验证码等等。,登陆百度智能云,选择产品服务。选择“人工智能”---文字识别。点击创建应用。如图下面有关于“文字识别”的各类信息,如通用文字识别每天可以名费使用50000次,文字识别高精度版本免费使用500次每天。对于一般应用应该还足够。在创建应用界面填入必要的信息,点击“立即创建”按纽。返回后点击“管理应用”按纽。管理应用界面主要是能看到调用接口时需要的APP_ID,API_KEY,S
系统 2019-09-27 17:46:02 1977
Python2中编码相关的问题很是让人蛋疼,特别是中文字符。比如本文所述的中文网页GBK编码的诡异问题。现象例如:盲录�氓��,其实网页里面正常的应该是会员分析接着上面的例子,会员这部分乱码通过repr()函数求值得到如下结果\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98使用type()函数求值得到的结果为unicodeeval(repr())出来值为盲录�氓��通过查表上述6个汉字对应c3a4c2bcc2
系统 2019-09-27 17:45:40 1977
1、操作目录与文件名#!/usr/bin/envpython#-*-coding:utf-8-*-importos,reimportshutilimporttime用listdir搜索defsearch_OFD_old(my_pattern,diretory):try:names=os.listdir(diretory)exceptos.error:print"error"returnfornameinnames:fullname=os.path.norm
系统 2019-09-27 17:38:36 1977
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。kNN方法在类别决策时,只与极
系统 2019-09-27 17:38:02 1977
解决思路首先想到的就是利用python的正则表达式来匹配非法字符,然后找出非法记录。然而理想总是丰满的,现实却是残酷的。在实现的过程中,才发现自己对于字符编码、以及python内部字符串表示的相关知识的缺乏。在这期间,踩过了不少坑,到最后虽然还有些模糊的地方,但总算有一个总体清晰的了解。在此记录下心得,避免以后在同一个地方跌倒。以下的测试环境是ArcGIS10.3自带的python2.7.8环境,不保证其他python环境也适用。python正则表达式py
系统 2019-09-27 17:37:48 1977