今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜(
https://www.shicimingju.com/paiming)中的标题。
scrapy starproject 文件名(wallpaper)
2.新建爬虫文件
scrapy genspider 文件名(landscape)www.xxx.com
3.发送请求并解析数据
上两节课有详细的讲解,所以这部分不再赘述。
4.建立翻页链接
上面我们放的链接为第一页的地址,根据翻页网页的地址我们可以发现,“p”对应的值为变量,因此我们拼接网址:
5.对翻页链接发送请求
基本格式为:yield scrapy.Request(url地址,callback=self.parse),当遇到第二页的时候,会根据上面的拼接地址填入,并解析数据
6.总结
要实现翻页自动发送请求,需要先建立好第一页的请求并解析,然后写入翻页的网址之后,通过调用yield关键字实现翻页自动发送请求