您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

每天一个爬虫练习,爬取天气数据,适合新手

时间:2020-08-24 16:59:25  来源:  作者:
每天一个爬虫练习,爬取天气数据,适合新手

 

每天一个爬虫练习,爬个比较简单的网站

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
def get_data(url):
    resp = requests.get(url)

    html = resp.content.decode('gbk')

    soup = BeautifulSoup(html, 'html.parser')
    tr_list = soup.find_all('tr')

    dates, conditions, tempmin, tempmax = [], [], [], []
    for data in tr_list[1:]:
        sub_data = data.text.split()

        dates.Append(sub_data[0])
        conditions.append(''.join(sub_data[1:3]))
        tempmax.append(sub_data[3])
        tempmin.append(sub_data[5])
    _data = pd.DataFrame()
    _data["日期"] = dates
    _data['天气状况'] = conditions
    _data['最高气温'] = tempmax
    _data['最低气温'] = tempmin

    return _data

#data_1_month = get_data('此处为任一月份数据的网址') 使用时只需修改此处,具体示例如下


print('正在抓取1月份数据')
data_1_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201101.html')
print('正在抓取2月份数据')
data_2_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201102.html')
print('正在抓取3月份数据')
data_3_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201103.html')
print('正在抓取4月份数据')
data_4_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201104.html')
print('正在抓取5月份数据')
data_5_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201105.html')
print('正在抓取6月份数据')
data_6_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201106.html')
print('正在抓取7月份数据')
data_7_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201107.html')
print('正在抓取8月份数据')
data_8_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201108.html')
print('正在抓取9月份数据')
data_9_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201109.html')
print('正在抓取10月份数据')
data_10_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201110.html')
print('正在抓取11月份数据')
data_11_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201111.html')
print('正在抓取12月份数据')
data_12_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201112.html')


print('数据抓取成功!正在整合该年数据,请稍后......')
time.sleep(3)

data = pd.concat([data_1_month, data_2_month, data_3_month, data_4_month, data_5_month, data_6_month, data_7_month, data_8_month, data_9_month, data_10_month, data_11_month, data_12_month]).reset_index(drop=True)
print(data)

print('数据整合完毕!')
#数据爬取结果会保存在此代码同一径下

示例结果:

每天一个爬虫练习,爬取天气数据,适合新手

 



Tags:爬虫   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本:3.6.4相关模块:requests模块;wordcloud模块;pandas模块;numpy模块;jieba模块;pyecharts模...【详细内容】
2021-12-08  Tags: 爬虫  点击:(34)  评论:(0)  加入收藏
这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。...【详细内容】
2021-10-27  Tags: 爬虫  点击:(43)  评论:(0)  加入收藏
今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜( https://www.shicimingju.com/paiming)中的标题。1.新建文件夹scrapy starproject 文件名(wallpaper)2.新建...【详细内容】
2021-10-21  Tags: 爬虫  点击:(62)  评论:(0)  加入收藏
回顾python学习历程,感慨良多,这门语言实在是太强了,当然,分支也很多,有的在做安全,有的在做数据,有的在做爬虫,本文就笔者本身的爬虫入门的小经验分享给读者,期待各位在学习python的...【详细内容】
2021-08-11  Tags: 爬虫  点击:(81)  评论:(0)  加入收藏
来源:Python数据之道作者:Peter整理:阳哥大家好,我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点,文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】
2021-06-23  Tags: 爬虫  点击:(134)  评论:(0)  加入收藏
上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失...【详细内容】
2021-05-07  Tags: 爬虫  点击:(261)  评论:(0)  加入收藏
众所周知,代理IP可以助力爬虫工作更好的进行,很多人认为:如果没有代理IP,爬虫工作寸步难行。那么,如果爬虫不使用代理IP会出现什么情况呢? 一、小型爬虫:可有可无爬几百篇文章,几百...【详细内容】
2021-05-07  Tags: 爬虫  点击:(157)  评论:(0)  加入收藏
前言 将爬虫的爬取过程分为网络请求,文本获取和数据提取3个部分。 信息校验型反爬虫主要出现在网络请求阶段,这个阶段的反爬虫理念以预防为主要目的,尽可能拒绝反爬虫程序的请...【详细内容】
2021-04-20  Tags: 爬虫  点击:(451)  评论:(0)  加入收藏
导读:Scrapy由Python语言编写,是一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试...【详细内容】
2021-04-13  Tags: 爬虫  点击:(333)  评论:(0)  加入收藏
在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然...【详细内容】
2021-04-12  Tags: 爬虫  点击:(262)  评论:(0)  加入收藏
▌简易百科推荐
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(1)  评论:(0)  加入收藏
程序是如何被执行的  程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(9)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(19)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(23)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(24)  评论:(0)  加入收藏
一个项目的大部分API,测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API,复制用例来快速生成,然后做细微调整既可以满足我们的测试需求1.复制API:在菜单发布单...【详细内容】
2021-12-14  AutoMeter    Tags:AutoMeter   点击:(20)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条