Python3网络爬虫入门详解（一） - 军军小站|张军博客

爬虫的概念：

爬虫就是获取网页并提取和保存信息的自动化程序

爬虫的分类：

主要有四类：

通用网络爬虫，聚焦网络爬虫，增量式网络爬虫，深层网络爬虫

爬虫的流程：

常见的几种爬虫问题：

主要有五类：

静态网页的爬取，Ajax数据的爬取，动态渲染页面爬取，验证码的识别，代理的使用

常见的爬虫框架：

pyspider框架，Scrapy框架

分布式爬虫：

在多台机器上运行爬虫程序

爬虫的一些常用"库"：

解析库：lxml;Beautiful Soup;pyquery;tesserocr

请求库：requests;

数据库：MySql;MongoDB;Redis

Web库：Flask；Tornado

了解熟练这些基本上就对爬虫有了很深的理解了。

爬虫项目实战：

抓取猫眼电影排行，爬取淘宝商品，几种验证码的识别，使用代理爬取微信公众号文章，使用Scrapy爬取新浪微博（分布式）

我会将自己所学的（以上所列的一一记录在博客里），温故而知新吧。

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义