这篇文章主要介绍Python爬虫中如何抓取名人名言网站,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

公司主营业务:成都网站建设、网站制作、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联建站是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联建站推出龙亭免费做网站回馈大家。
1、输入网址
quotes.toscrape.com/,进入网站首页,观察网页的结构,我们发现网页的内容很清晰,
主要分为:名人名言,作者,标签三个主要字段,同时三个字段的内容为本次提取的内容。
2、确定需求,分析网页结构
打开开发者工具,点击networ进行网络数据抓包分析,网站是以get方式进行请求,不需要携带参数,那我们就可以以request请求库中的get()方法,进行模拟请求,需要带上headers请求,模拟浏览器信息验证,防止被网站服务器检测为爬虫请求。
也可以点击开发者工具的最左边小箭头,可以帮助我们快速定位,网页数据在element标签页所在的位置。
3、解析网页结构,提取数据。
请求成功之后,可以开始提取数据啦~,我用的是xpath的解析方法,所以,先来解析xpath页面,点击最左边小箭头,可以帮助我们快速定位数据所,网页数据在element标签页所在的位置.因为网页的请求方式数据以列表的方式逐条排序,所以我们可以先定位整个列表的数据。在通过lxm中html解析器,逐个字段抓取并保存至列表,方便下一步的数据清洗。
4、保存至csv文件
源码分享
import requests
from lxml import etree
import csv
url = "https://quotes.toscrape.com/"
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
}
res = requests.get(url,headers = headers).text
html = etree.HTML(res)
queto_list = html.xpath('//div[@class="col-md-8"]')
lists = []
for queto in queto_list:
# 名言正文
title = queto.xpath('./div[@class="quote"]/span[1]/text()')
# 作者
authuor = queto.xpath('./div[@class="quote"]/span[2]/small/text()')
# 名言标签
tags = queto.xpath('./div[@class="quote"]/div[@class="tags"]/a[@class="tag"]/text()')
# 将数据统一添加进列表中保存
lists.append(title)
lists.append(authuor)
lists.append(tags)
with open("./名人名言.csv",'w',encoding='utf-8',newline='\n') as f:
writer = csv.writer(f)
for i in lists:
writer.writerow(x)以上是“Python爬虫中如何抓取名人名言网站”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!
网站题目:Python爬虫中如何抓取名人名言网站
地址分享:http://www.scyingshan.cn/article/iiocsj.html


咨询
建站咨询
