python网络爬虫学习笔记之一 爬虫基础入门

系统 174 0

爬虫工作的三个基本步骤: 爬取网页、解析内容、存储数据

准备

先安装爬取网页需要用到的第三方库: requests 和 bs4

pip install requests

pip install bs4

爬取网页

            
              # coding: UTF-8
import requests

link = "http://www.santostang.com/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
r = requests.get(link, headers=headers)
print(r.text)
            
          

程序运行后输出 网页的html代码

解析网页内容

            
              # coding: UTF-8
import requests
from bs4 import BeautifulSoup

link = "http://www.santostang.com/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
r = requests.get(link, headers=headers)

soup = BeautifulSoup(r.text, "lxml")
title = soup.find("h1", class_="post-title").a.text.strip()
print(title)
            
          

获取到了网页第一篇文章的 title,输出内容为:

第四章 – 4.3 通过selenium 模拟浏览器抓取

存储数据

            
              # coding: UTF-8
import requests
from bs4 import BeautifulSoup

link = "http://www.santostang.com/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
r = requests.get(link, headers=headers)

soup = BeautifulSoup(r.text, "lxml")
title = soup.find("h1", class_="post-title").a.text.strip()

with open('d:/title.txt', 'w') as f:
	f.write(title)
            
          

运行程序后找到d:/title.txt 文件,发现文件的内容就是网页第一篇文章的title,即 “第四章 – 4.3 通过selenium 模拟浏览器抓取”

至此,讲解完了python爬虫的三个基本步骤和代码实现

本文内容到此结束,更多内容可关注公众号和个人微信号:

python网络爬虫学习笔记之一 爬虫基础入门_第1张图片 python网络爬虫学习笔记之一 爬虫基础入门_第2张图片


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请请扫描上面二维码支持博主1元、2元、5元等您想捐的金额吧,狠狠点击下面给点支持吧

发表我的评论
最新评论 总共0条评论