Python3网络爬虫入门详解(一)

系统 129 0

爬虫的概念:

爬虫就是获取网页并提取和保存信息的自动化程序

爬虫的分类:

主要有四类:

通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫

爬虫的流程:

Python3网络爬虫入门详解(一)_第1张图片

常见的几种爬虫问题:

主要有五类:

静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用

常见的爬虫框架:

pyspider框架,Scrapy框架

分布式爬虫:

在多台机器上运行爬虫程序

爬虫的一些常用"库":

解析库:lxml;Beautiful Soup;pyquery;tesserocr

请求库:requests;

数据库:MySql;MongoDB;Redis

Web库:Flask;Tornado

了解熟练这些基本上就对爬虫有了很深的理解了。

爬虫项目实战:

抓取猫眼电影排行,爬取淘宝商品,几种验证码的识别,使用代理爬取微信公众号文章,使用Scrapy爬取新浪微博(分布式)

我会将自己所学的(以上所列的一一记录在博客里),温故而知新吧。

 

 

 


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请请扫描上面二维码支持博主1元、2元、5元等您想捐的金额吧,狠狠点击下面给点支持吧

发表我的评论
最新评论 总共0条评论