首先要分析一下电影天堂网站的首页结构。在这里插入图片描述从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类,将每一个分类地址作为爬虫的起点。①解析首页地址提取分类信息#解析首页defCrawIndexPage(starturl):print"正在爬取首页"page=__getpage(starturl)ifpage=="error":returnpage=page.decode('gbk','ignore')tree=
系统 2019-09-27 17:56:58 2083
判读是否存在文件夹importtensorflowastfimportosfolder='./floder'ifnottf.gfile.Exists(folder):#若文件夹不存在,则自动创建文件夹tf.gfile.MakeDirs(folder)若存在删除文件夹下所有文件iftf.gfile.Exists(folder):#返回一个listforfilein(tf.gfile.ListDirectory(folder)):#添加绝对路径,并删除文件tf
系统 2019-09-27 17:54:49 2083
之前想爬取一些淘宝的数据,后来发现需要登录,找了很多的资料,有个使用request的sessions加上cookie来登录的,cookie的获取在登录后使用开发者工具可以找到。不过这个登录后获得的网页的代码是静态的,获取动态网页还得另寻他法,一般需要的数据可以在网页的源码中得到,但是你知道的,有些动态加载的就不是那么简单了,而且我发现这样获得的源码中,有些想要获取的数据的格式是经过改动的,比如我要某个商品的具体链接,发现并不能直接使用。总体而言,这是一次失
系统 2019-09-27 17:54:47 2083
创建列表复制代码代码如下:sample_list=['a',1,('a','b')]Python列表操作复制代码代码如下:sample_list=['a','b',0,1,3]得到列表中的某一个值复制代码代码如下:value_start=sample_list[0]end_value=sample_list[-1]删除列表的第一个值复制代码代码如下:delsample_list[0]在列表中插入一个值复制代码代码如下:sample_list[0:0]=['
系统 2019-09-27 17:53:48 2083
1.函数添加importsyssys.pathsys.path.append("c:\\")2.修改pythonpath(试不通)windows:PYTHONPATH3.增加.pth文件(可以)site-packages或者python安装目录添加xx.pth,文件内容为模块目录。linux(ubuntu)/usr/local/lib/python2.7/dist-packageslinux(redhat)/usr/lib/python2.7/site-p
系统 2019-09-27 17:53:45 2083
getpwname只能得到gid一个username。importpwdmyGroupId=pwd.getpwnam(username).pw_gidgetgroups只能获取groups脚本用户。importosmyGroupIds=os.getgroups()我怎么能得到所有groups的任意一个username,比如id-Gn命令?id-Gn`whoami`解决方案#!/usr/bin/envpythonimportgrp,pwduser="myna
系统 2019-09-27 17:53:36 2083
函数的嵌套在Python编程语言中,在函数体内创建另外一个函数(对象,因为Python一切皆对象,函数其实也是对象)是完全合法的,这种函数叫做内部/嵌套函数。例子:#coding:utf-8defouter():definner():print("isInnerMethod")print("IsouterMethod")inner()#调用outer函数outer()#调用outer()的内部函数,报错#inner()运行结果:IsouterMethodi
系统 2019-09-27 17:52:56 2083
最近在做游戏服务分层的时候,一直想把mysql的访问独立成一个单独的服务DBGate,原因如下:请求收拢到DBGate,可以使DBGate变为无状态的,方便横向扩展当请求量或者存储量变大时,mysql需要做分库分表,DBGate可以内部直接处理,外界无感知通过restful限制对数据请求的形式,仅支持简单的get/post/patch/put进行增删改查,并不支持复杂查询。这个也是和游戏业务的特性有关,如果网站等需要复杂查询的业务,对此并不适合DBGate
系统 2019-09-27 17:52:45 2083
主机环境:(Python2.7.9/Win8_64/bs4)利用BeautifulSoup4来抓取www.pm25.com上的PM2.5数据,之所以抓取这个网站,是因为上面有城市PM2.5浓度排名(其实真正的原因是,它是百度搜PM2.5出来的第一个网站!)程序里只对比了两个城市,所以多线程的速度提升并不是很明显,大家可以弄10个城市并开10个线程试试。最后吐槽一下:上海的空气质量怎么这么差!!!PM25.py复制代码代码如下:#!/usr/bin/envp
系统 2019-09-27 17:51:23 2083
klearnpythonAPILinearRegressionfromsklearn.linear_modelimportLinearRegression#线性回归#module=LinearRegression()module.fit(x,y)module.score(x,y)module.predict(test)LogisticRegressionfromsklearn.linear_modelimportLogisticRegression#逻辑回
系统 2019-09-27 17:51:04 2083