您当前的位置:首页 > 互联网百科 > 大数据

15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

时间:2023-08-03 13:41:21  来源:微信公众号  作者:萝卜大杂烩


今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!

不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!

FiveThirtyEight

FiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学习思路。

FiveThirtyEight 文章中使用的数据集可以在Github上在线获得

https://github.com/fivethirtyeight/data

以下是一些示例:

航空安全-包含来自各航空公司的事故信息。

美国天气历史-美国历史天气数据。

研究药物-美国谁在服用阿达拉的数据。

网站链接

http://fivethirtyeight.com/

BuzzFeed

BuzzFeed 最初是一家低质量文章的供应商,后来发展的很不错,其网站上也有很多比较不错的数据分析文章。

BuzzFeed使文章中使用的数据集在Github上可用

https://github.com/BuzzFeedNews

以下是一些示例:

联邦侦察机-包含用于国内监视的飞机的数据。

寨卡病毒-有关寨卡病毒爆发地理的数据。

枪支背景调查-数据背景调查的人试图购买枪支。

https://www.buzzfeed.com/

NASA

NASA 是一个由公共资助的政府组织,所以它的所有数据都是公开的。任何人都可以在网站下载与地球科学有关的数据集和与空间有关的数据集。

相关数据链接

https://earthdata.nasa.gov/

AWS Public Data sets

Amazon 在其 Amazon Web 服务平台上提供大型数据集,我们可以免费下载数据并在自己的计算机上使用它,当然是需要 AWS 账户的。

以下是一些示例:

googlebooks中的n-gram列表-来自大量书籍的常用词和词组。

普通爬网语料库-从超过50亿网页爬网数据。

陆地卫星图像-地球表面的中等分辨率卫星图像。

网站链接

https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1

Google Public Data sets

亚马逊很像,谷歌也有云托管服务,称为谷歌云平台。

以下是一些示例:

USA名称-包含从1879年到2015年美国所有的社会保障名称申请。

Github活动-包含超过280万个公共Github存储库上的所有公共活动。

历史天气-1929年至2016年美国国家海洋和大气管理局9000个气象站的数据。

网站链接

https://cloud.google.com/bigquery/public-data/

Wikipedia

维基百科是一个免费的、在线社区编辑百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼-哈布斯堡战争到莱昂纳多-尼莫伊的各种内容。作为维基百科致力于提升知识的一部分,他们免费提供所有内容,并定期转存网站上所有文章。

数据下载地址

https://en.wikipedia.org/wiki/Wikipedia:Database_download

Kaggle

Kaggle是一个数据科学社区,主办机器学习竞赛。网站上有各种外部提供的有趣数据集,既有现场比赛,也有历史比赛。我们可以下载任何一项数据,但是必须注册Kaggle并接受比赛的服务条款。

数据下载地址

https://www.kaggle.com/datasets

UCI machine Learning Repository

UCI机器学习库是web上最古老的数据源之一,因为数据集是由用户贡献的,所以具有不同级别的文档和清洁度,但绝大多数数据集都是干净的,可以应用于机器学习当中。可以把UCI作为寻找有趣数据集的第一站。

地址

https://archive.ics.uci.edu/ml/datasets.php

Quandl

Quandl是经济金融数据的存储库,有些信息是免费的,但许多数据集需要付费,Quandl对于建立预测经济指标或股票价格的模型是很有用的。由于有大量可用的数据集,所以可以建立一个复杂的模型,使用许多数据集来预测另一个模型中的值。

地址

https://www.quandl.com/browse

data.world

data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“数据的GitHub”。它是一个可以搜索、复制、分析和下载数据集的地方。此外,我们还可以将数据上载到data.world并利用它与其他人合作。

在相对较短的时间内,它已经成为一个'应该去'的地方获取数据,这绝对是一个值得多逛逛的网站

地址

https://www.data.world/

Data.gov

Data.gov是一个相对较新的网站,是美国政府开放。Data.gov可以从多个美国政府机构下载数据,数据范围从政府预算到学校表现分数等等。但是许多数据需要额外探索,有时很难找出哪个数据集是“正确的”版本。

网站地址

https://www.data.gov/

The World Bank

世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期为发展中国家的项目提供资金,然后收集数据以监测这些项目的成功与否。

我们可以直接浏览世界银行的数据集,无需注册。但是在下载的时候,有时会出现问题,所以需要多点击几次下载才可以成功下载到数据

地址

http://data.worldbank.org/

/r/datasets

Reddit是一个流行的社区讨论网站,它有专门的地方来分享有趣的数据集。它被称为datasets subreddit,或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,所以有些数据集看起来有些奇妙。

地址

https://www.reddit.com/r/datasets/top/?sort=top&t=all

Academic Torrents

Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。

地址

http://academictorrents.com/browse.php?cat=6

Github

这个就不多说了吧,不知道的可以拖出去了!



Tags:数据集   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
如何构建高质量的数据集:方法和技巧
在当今数据驱动的时代,数据集的质量对于机器学习和人工智能的成功至关重要。构建高质量的数据集是一个复杂而关键的过程,本文将介绍一些方法和技巧,帮助您构建出高质量的数据集...【详细内容】
2023-11-20  Search: 数据集  点击:(182)  评论:(0)  加入收藏
Python的集合模块,使用数据容器处理数据集合
简介Python是一种功能强大的编程语言,可以简化许多编程任务。它的标准库中有一个collections模块,提供了处理集合数据的有用容器数据类型。ChainMap类将多个字典合并为一个映...【详细内容】
2023-11-08  Search: 数据集  点击:(235)  评论:(0)  加入收藏
一文讲清数据集市、数据湖、数据网格、数据编织
在今天的数字时代,企业每天都在应对来自四面八方的海量数据。随着对强大的数据管理和分析需求的增长,数据仓库、数据湖和数据网等概念已成为有效的解决方案。这些方法有助于企...【详细内容】
2023-09-27  Search: 数据集  点击:(304)  评论:(0)  加入收藏
多样性视觉常识推理数据集GD-VCR
在当今数字时代,计算机视觉技术的飞速发展为我们的生活带来了巨大便利。然而,实现计算机对视觉信息的理解仍然是一个巨大挑战。为了解决这个问题,研究人员一直在努力构建各种视...【详细内容】
2023-09-07  Search: 数据集  点击:(263)  评论:(0)  加入收藏
数据集收集所面临的主要挑战
在现代科技的推动下,数据已经成为推动机器学习和人工智能进步的关键因素之一。构建一个优质的数据集对于培养高效的机器学习模型至关重要。然而,数据集的收集并不是一项轻松的...【详细内容】
2023-09-07  Search: 数据集  点击:(121)  评论:(0)  加入收藏
「不要回答」,数据集来当监听员,评估LLM安全机制就靠它了
机器之心编辑部叶文洁打开结果文件,人类第一次读到了来自宇宙中另一个世界的信息,其内容出乎所有人的想象,它是三条重复的警告:不要回答!不要回答!!不要回答!!!这是《三体》一切故事的...【详细内容】
2023-09-06  Search: 数据集  点击:(315)  评论:(0)  加入收藏
Oracle数据库分区技术:优化大型数据集的存储效率!
在处理大规模数据时,数据库性能和存储效率是至关重要的。Oracle数据库分区技术是一种优化数据管理和查询效率的解决方案,可以帮助用户更好地处理大型数据集。下面将介绍Oracle...【详细内容】
2023-08-28  Search: 数据集  点击:(266)  评论:(0)  加入收藏
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,...【详细内容】
2023-08-03  Search: 数据集  点击:(117)  评论:(0)  加入收藏
你知道什么是多感官物体数据集吗
随着人工智能和机器学习的迅速发展,构建准确且全面的数据集对于培养强大的算法模型至关重要。在这个背景下,多感官物体数据集(Multimodal Object Datasets)成为了一个备受关注的...【详细内容】
2023-08-02  Search: 数据集  点击:(215)  评论:(0)  加入收藏
阿里天猫精灵宣布推出AI治理开源数据集,首批标注人已向AI“投毒100瓶”
新浪科技讯 6月1日上午消息,近日,阿里巴巴天猫精灵与通义大模型团队联合多领域学者、组织推出大语言模型治理开源中文数据集100PoisonMpts,宣布十余位知名专家学者成为首批“给...【详细内容】
2023-06-01  Search: 数据集  点击:(117)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(50)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(65)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(63)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条