您当前的位置:首页 > 电脑百科 > 人工智能

2020年22个广泛使用的数据科学与机器学习工具(附链接)

时间:2020-07-31 10:24:01  来源:  作者:

作者:RAM DEWANI

翻译:欧阳锦

校对:陈汉青

本文长度为4600字,建议阅读11分钟

本文为大家从两个方面——大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具。结合了大数据的3V特征,数据科学与其各个领域的关系特征较为完整的阐述了各种工具的使用背景、情况和各自特点。

标签:数据科学,机器学习,实用工具

概述

  • 数据科学的工具数不胜数——你应该选择哪一个?
  • 这里列出了超过20种的数据科学工具,满足数据科学生命周期不同阶段的需求。

引言

执行数据科学任务的最佳工具有哪些?作为数据科学新手,你应该选择哪些工具?

我相信在你的数据科学之旅的某些时刻中你已经问过(或搜索过)这些问题。这些问题是合理的!虽然在这个行业中并不缺乏数据科学工具,但是为你的数据科学旅程和生涯做出一个选择可能是一个棘手的决定。

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

我们得承认——数据科学的范围庞杂,每一个领域要求处理数据的方式各有不同,这让许多分析家/数据库科学家陷入困惑。而如果你是一位商业领袖,你将要选择你和你的公司所使用的工具,这很关键,因为这些工具会产生长期的影响。

同样地,问题是你应该选择哪种数据科学工具呢?

在本文中,我将通过罗列出数据科学领域广泛使用的工具并细分它们的用途和优势,来帮你解决这些困惑。所以,让我们开始吧!

目录

  • 深入大数据 – 处理大数据的工具

体量

种类

速度

  • 数据科学的工具

报告和商业智能

预测建模和机器学习

人工智能

大数据的数据科学工具

为了真正了解大数据背后的深刻意义,我们需要了解给大数据下定义所的基本原理。他们被称为大数据的3V而广为人知。

  • 体量
  • 种类
  • 速度

处理大数据体量的工具

顾名思义,体量是指数据的规模和数量。要了解我在说的数据规模,你需要知道,世界上超过90%的数据是在最近两年内创建的!

十年来,随着数据量的增加,该技术也变得越来越好。计算和存储成本的降低使收集和存储大量数据变得更加容易。

数据体量定义了它是否符合大数据的条件。

当我们的数据范围在1Gb到10Gb左右时,传统的数据科学工具就可以很好地工作。那么这些工具有哪些呢?

  • Microsoft Excel–Excel是处理少量数据的最简单,最受欢迎的工具。它支持的最大行数只刚刚超过一百万,一张表一次最多只能处理16,380列。当数据量很大时,这些根本不够用。

Microsoft Excel:

https://www.analyticsvidhya.com/blog/category/excel/?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Microsoft Access –它是Microsoft流行的用于数据存储的工具。使用此工具可以平稳顺畅地处理高达2Gb的较小数据库,但超过这个数字,Access会开始崩溃。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • SQL – SQL是自1970年代以来最流行的数据管理系统之一。几十年来,它一直是主要的数据库解决方案。SQL仍然很流行,但有一个缺点——随着数据库的不断增长,很难对其进行扩展。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

到目前为止我们已经介绍了一些基本工具。现在该放大招了!如果你的数据大于10Gb,甚至超过1Tb+,那么需要使用我在下面提到的工具:

  • Hadoop –它是一个开源的分布式框架,用于管理大数据的数据处理和存储。当你从零开始构建机器学习项目时,很可能会使用此工具。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Hive –它是建立在Hadoop之上的数据仓库。Hive提供了一个类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

处理大数据种类的工具

数据种类是指存在的不同类型的数据。数据类型可以是以下之一:结构化和非结构化数据。

让我们看一下不同数据类型的示例:

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

花一点时间去观察这些示例,并且将它们与你的真实数据关联起来。

你可能在结构化数据中观察到,这种类型的数据有固定的顺序和结构,而非结构化数据相反,这些示例并不遵循任何趋势或者模式。例如,顾客反馈在长度、情感和其他方面有所不同。另外,这类数据巨大并且种类繁多。

处理这类数据可能非常具有挑战性,那么市场上用于管理和处理这些不同数据类型的数据科学工具有哪些呢?

两个最常见的数据库是SQL和NoSQL。在NoSQL出现前,SQL多年来一直是市场主导者。

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

SQL的一些例子是Oracle,MySQL,SQLite,而NoSQL由诸如MongoDB,Cassandra等流行的数据库组成。这些NoSQL数据库由于具有扩展和处理动态数据的能力而被广泛地应用。

处理大数据速度的工具

第三个,也是最后一个V代表了速度。这是捕获数据时的速度,包括实时和非实时数据。我们在这里将主要讨论实时数据。

我们周围有许多捕获和处理实时数据的示例。最复杂的是自动驾驶汽车收集的传感器数据。想象一下,在自动驾驶汽车中,汽车必须同时动态地收集和处理有关车道、与其他车辆的距离等数据!

其他正在收集的实时数据的例子包括:

  • 闭路电视
  • 股票交易
  • 信用卡交易欺诈检测
  • 网络数据——社交媒体(Facebook、Twitter等)

“你知道吗?

在纽约证券交易所的每个交易时段中,都会生成超过1TB的数据!”

现在,让我们来看看处理实时数据的一些常用数据科学工具:

  • Apache Kafka – Kafka是Apache的开源工具。它用于创建实时数据管道。Kafka的一些优点在于——它具有容错性、速度很快,并且被大量机构投入生产使用。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Apache Storm – Apache的该工具几乎可用于所有编程语言。它每秒可处理多达100万个元组,并具有高度的可扩展性。对于高数据速率来说,这是个好工具。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Amazon Kinesis – 亚马逊提供的此工具类似于Kafka,但需要付费。然而,它提供的是开箱即用的解决方案,这使其成为组织机构的强势的备选方案。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Apache Flink – Flink是Apache另一种可用于实时数据的工具。Flink的优点在于它的高性能、容错能力和有效的内存管理。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

 

现在,我们已经掌握了通常用于处理大数据的各种工具,接下来将介绍使用高级机器学习技术和算法来利用数据的部分。

广泛使用的数据科学工具

如果你要建立一个全新的数据科学项目,那么脑海中会浮现很多问题,这与你的水平无关——无论你是数据科学家,数据分析师,项目经理还是高级数据科学主管,都是如此。

你将面对的一些问题是:

• 在数据科学的不同领域中应该使用哪些工具?

• 应该购买这些工具的许可证还是选择开源工具?等等。

在本节中,我们将根据不同领域讨论行业中使用的一些受欢迎的数据科学工具。

数据科学本身就是一个广义术语,它由各种不同的领域组成,每个领域都有它自己的业务重要性和复杂性,正如下图所示:

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

数据科学的范围包含了各种领域,上图表示了这些领域的相对复杂性和它们提供的业务价值。让我们讨论一下以上频谱中显示的每一个点。

报告和商业智能

让我们从这个范围的底端开始。报告和商业智能使一个机构能够识别出数据的趋势和模式,从而制定关键的战略决策。这种分析的类型包括MIS、数据分析和仪表板。

这些领域中常用的工具有:

  • Excel – 它提供了多种选择,包括了数据透视表和图表,使你可以快速分析数据。简而言之,它是数据科学/分析工具中的“瑞士军刀”。
  • QlikView – 您只需单击几下即可合并,搜索,可视化和分析所有数据资源。这是一种易于学习的直观的工具,因此非常受欢迎。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Tableau – 它是当今市场上最受欢迎的数据可视化工具之一。它能够处理大量数据,甚至提供类似于Excel的计算功能和参数。Tableau因其整洁的仪表板和故事界面而倍受赞誉.

https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Microstrategy – 它是另一个BI工具,支持仪表板、自动分发和其他关键数据分析任务。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • PowerBI – 它是商业智能(BI)领域中的Microsoft产品。PowerBI旨在与Microsoft技术进行集成。因此,如果你的组织有Sharepoint或SQL数据库用户,那么你和你的团队将会喜欢这个工具。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • google Analytics – 想知道Google Analytics如何进入此名单的吗?嗯……数字营销在业务转型中起着重要作用,没有比它更好的工具可以用来分析你的数字化工作。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

预测分析和机器学习工具

顺着前面那个图再往上走,其复杂性和商业价值也变高了!这是大多数数据科学家赖以生存的领域。你将要解决的问题类型是统计建模,预测,神经网络和深度学习。

让我们了解一些该领域的常用工具:

  • Python – 由于其易用性,灵活性和开源特性,Python是当今行业数据科学中最主要的语言之一。它已经在ML社区中迅速普及并被广泛接受。

https://courses.analyticsvidhya.com/courses/introduction-to-data-science?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • R – 它是数据科学中另一种非常常用且受人尊敬的语言。R有一个蓬勃发展且被极大支持的社区,附带了许多软件包和库,支持大多数的机器学习任务。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

 

  • Apache Spark – Spark由加州大学伯克利分校于2010年开源,此后已成为最大的大数据社区之一。它被称为大数据分析的“瑞士军刀”,因为它具有多种优势,例如灵活性、速度、计算能力等。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Julia – 它是一种即将到来的语言,被捧为Python的继承者。目前它仍处于起步阶段,观察其在未来的表现将会是一件有趣的事。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Jupyter Notebooks – 这些笔记本广泛用于Python编程。尽管它主要用于Python,但它也支持其他语言,例如Julia,R等。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

到目前为止,我们讨论的工具都是真正的开源工具。你无需支付费用或购买任何额外的许可证。它们拥有活跃的社区,可以定期维护和发布更新。

现在,我们将看一些在某些特定行业中通用的收费工具:

  • SAS – 这是一个非常受欢迎且功能强大的工具。在银行和金融部门中被普遍使用。它的使用在美国运通,摩根大通,西格玛,苏格兰皇家银行等私人组织中占有很高的份额。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • SPSS – SPSS是“社会科学统计软件包”的缩写,在2009年被IBM收购。它提供高级统计分析、庞大的机器学习算法库、文本分析等。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • Matlab – Matlab在组织机构的领域里确实被低估了,但在学术界和研究部门中得到了广泛的使用。最近相较于Python,R和SAS,Matlab已经阵地失守,但是大学(尤其在美国)仍在使用Matlab教授许多本科课程。
2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

深度学习的通用框架

深度学习需要大量的计算资源,并且需要特殊的框架才能有效地利用这些资源。因此,你很可能需要GPU或TPU。

让我们看看本节中用于深度学习的一些框架。

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

  • TensorFlow – 它很容易成为当今行业中使用最广泛的工具。Google可能与此有关!
  • PyTorch – 这种超级灵活的深度学习框架正在成为TensorFlow的强势竞争对手。PyTorch最近受到一些关注,它的开发者是Facebook的研究人员。
  • Keras和Caffe是广泛用于构建深度学习应用程序的其他框架。

人工智能工具

AutoML的时代就在这里。如果还没有听说过这些工具,那么这是一个自我学习的好机会!作为数据科学家,你很可能会在不久的将来与他们合作。

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

列举一些最受欢迎的AutoML工具,包括AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot,H20的无人驾驶AI和亚马逊的Lex。AutoML有望成为AI / ML社区中的下一个大事件。它旨在消除或减少技术性,以便商业领导者可以使用它来制定战略决策。

这些工具将推动整个数据分析流程自动化!

尾注

我们已经讨论了数据收集引擎以及完成检索、处理和存储,这一整个流水线所需的工具。数据科学的众多领域中每个领域都有自己的一套工具和框架。

选择数据科学工具通常取决于你的个人选择、你的领域或项目,当然也取决于你的机构。

在评论中让我知道你喜欢使用的最喜欢的数据科学工具或框架!

原文标题:

22 Widely Used Data Science and Machine Learning Tools in 2020

原文链接:

https://www.analyticsvidhya.com/blog/2020/06/22-tools-data-science-machine-learning/

编辑:王菁

校对:林亦霖

译者简介

2020年22个广泛使用的数据科学与机器学习工具(附链接)

 

欧阳锦,我是一名即将去埃因霍芬理工大学继续攻读数据科学专业的硕士生。本科毕业于华北电力大学,自己喜欢的科研方向是隐私安全中的数据科学算法。有很多爱好和兴趣(摄影、运动、音乐),对生活中的事情充满兴趣,是个热爱钻研、开朗乐观的人。为了更好地学习自己喜欢的专业领域,希望能够接触到更多相关的事物以开拓自己的眼界和思路。

—完—



Tags:机器学习   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
基于算法的业务或者说AI的应用在这几年发展得很快。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】
2021-11-08  Tags: 机器学习  点击:(32)  评论:(0)  加入收藏
这是几位机器学习权威专家汇总的725个机器学习术语表,非常全面了,值得收藏! 英文术语 中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】
2021-10-21  Tags: 机器学习  点击:(43)  评论:(0)  加入收藏
要开始为开源项目做贡献,有一些先决条件:1. 学习一门编程语言:由于在开源贡献中你需要编写代码才能参与开发,你需要学习任意一门编程语言。根据项目的需要,在后期学习另一种语言...【详细内容】
2021-10-20  Tags: 机器学习  点击:(37)  评论:(0)  加入收藏
作者:阿米特·V. 乔希(Ameet V Joshi)来源:华章科技 01 人工智能艾伦·图灵(Alan Turing)对人工智能的定义如下:如果窗帘后面有一台机器,并且有人正在与之互动(无论以何...【详细内容】
2021-09-07  Tags: 机器学习  点击:(74)  评论:(0)  加入收藏
字节跳动基础架构团队基于火山引擎机器学习平台 Clever 及其丰富的行业落地经验,推出开源项目 Klever,以工程化的方式降低智能技术落地门槛,助力企业快速打造智能业务。作者: 陈...【详细内容】
2021-02-19  Tags: 机器学习  点击:(170)  评论:(0)  加入收藏
特征选择是识别和选择与目标变量最相关的输入变量子集的过程。特征选择最简单的情况可能是存在数字输入变量和用于回归预测建模的数字目标的情况。这是因为可以计算出每个输...【详细内容】
2021-01-15  Tags: 机器学习  点击:(117)  评论:(0)  加入收藏
1、集成学习及Boosting算法集成学习属于机器学习,它是一种“训练思路”,并不是某种具体的方法或者算法。集成学习的核心思想是把已有的算法进行结合,从而得到更好的效果。集成...【详细内容】
2020-12-29  Tags: 机器学习  点击:(176)  评论:(0)  加入收藏
“终有一天,人工智能会像我们看待非洲平原上低级生物的化石一样看待我们。在人工智能眼中,人类只是直立行走的猿猴,用着粗糙的语言和简陋的工具,从诞生起就注定会灭绝。”&mdash...【详细内容】
2020-12-17  Tags: 机器学习  点击:(147)  评论:(0)  加入收藏
专注Python、AI、大数据,请关注公众号七步编程!人工智能方向的项目,和数据可视化是紧密相连的。模型训练过程中梯度下降过程是什么样的?损失函数的走向如何?训练模型的准确度怎么...【详细内容】
2020-10-15  Tags: 机器学习  点击:(355)  评论:(0)  加入收藏
在数据领域,很多人都在说机器学习,但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章,大多都是充斥各种定理的厚重学术三部曲(我搞定半个定理都够呛),或是关于人工智能...【详细内容】
2020-09-25  Tags: 机器学习  点击:(111)  评论:(0)  加入收藏
▌简易百科推荐
作为数据科学家或机器学习从业者,将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中,我将介绍两个...【详细内容】
2021-12-17  deephub    Tags:AI   点击:(15)  评论:(0)  加入收藏
基于算法的业务或者说AI的应用在这几年发展得很快。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】
2021-11-08  数据学习DataLearner    Tags:机器学习   点击:(32)  评论:(0)  加入收藏
11月2日召开的世界顶尖科学家数字未来论坛上,2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】
2021-11-03  张淑贤  证券时报  Tags:人工智能   点击:(39)  评论:(0)  加入收藏
鉴于物联网设备广泛部署、5G快速无线技术闪亮登场,把计算、存储和分析放在靠近数据生成的地方来处理,让边缘计算有了用武之地。 边缘计算正在改变全球数百万个设备处理和传输...【详细内容】
2021-10-26    计算机世界  Tags:边缘计算   点击:(45)  评论:(0)  加入收藏
这是几位机器学习权威专家汇总的725个机器学习术语表,非常全面了,值得收藏! 英文术语 中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】
2021-10-21  Python部落    Tags:机器学习   点击:(43)  评论:(0)  加入收藏
要开始为开源项目做贡献,有一些先决条件:1. 学习一门编程语言:由于在开源贡献中你需要编写代码才能参与开发,你需要学习任意一门编程语言。根据项目的需要,在后期学习另一种语言...【详细内容】
2021-10-20  TSINGSEE青犀视频    Tags:机器学习   点击:(37)  评论:(0)  加入收藏
SimpleAI.人工智能、机器学习、深度学习还是遥不可及?来这里看看吧~ 从基本的概念、原理、公式,到用生动形象的例子去理解,到动手做实验去感知,到著名案例的学习,到用所学来实现...【详细内容】
2021-10-19  憨昊昊    Tags:神经网络   点击:(47)  评论:(0)  加入收藏
语言是人类思维的基础,当计算机具备了处理自然语言的能力,才具有真正智能的想象。自然语言处理(Natural Language Processing, NLP)作为人工智能(Artificial Intelligence, AI)的核心技术之一,是用计算机来处理、理解以及运...【详细内容】
2021-10-11    36氪  Tags:NLP   点击:(48)  评论:(0)  加入收藏
边缘计算是什么?近年来,物联网设备数量呈线性增长趋势。根据艾瑞测算, 2020年,中国物联网设备的数量达74亿,预计2025年突破150亿个。同时,设备本身也变得越来越智能化,AI与互联网在...【详细内容】
2021-09-22  汉智兴科技    Tags:   点击:(54)  评论:(0)  加入收藏
说起人工智能,大家总把它和科幻电影中的机器人联系起来,而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似,但它们的显著差异在于人工智能...【详细内容】
2021-09-17  异步社区    Tags:人工智能   点击:(57)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条