您当前的位置：首页 > 电脑百科 > 人工智能

流行的机器学习算法总结，帮助你开启机器学习算法学习之旅

时间：2020-06-21 16:03:42 来源：作者：

+ 加入收藏

机器学习算法概述

"机器智能是人类永远需要的一项发明。"— Nick Bostrom.

如果您可以回顾几年前的AI并将其与现在的AI进行比较，您会惊讶地发现AI的发展速度随着时间的增长呈指数级增长。

它已扩展到各种领域，例如ML，Expert Systems，NLP等数十个领域。

尽管AI的思路是构建可以自行思考和执行的更智能的系统，但仍然需要对其进行训练。

AI的ML领域是为实现非常精确的目标而创建的，它引入了多种算法，从而可以更顺畅地进行数据处理和决策。

什么是机器学习算法？

机器学习算法是任何模型背后的大脑，可让机器学习并使其更智能。

这些算法的工作方式是，为它们提供第一批数据，并且随着时间的流逝和算法的准确性的提高，额外的数据也被引入到算法中。

定期将算法应用于新数据和新经验的过程可提高机器学习的整体效率。

机器学习算法对于与分类，预测建模和数据分析相关的各种任务至关重要。

"机器学习方面的突破将价值十个微软。"- Bill Gates

机器学习算法的类型

在本节中，我们将重点介绍现有的各种ML算法。 ML算法的三个主要范例是：

监督学习

顾名思义，监督算法通过定义一组输入数据和预期结果来工作。通过在训练数据上迭代执行功能并让用户输入控制参数来改进模型。如果发现其映射的预测正确，则认为该算法是成功的。

监督学习

无监督学习

在监督算法在用户标记的数据上进行输出预测时，将这些训练结果在没有用户干预的情况下来训练未标记数据。

这个算法可以对数据进行分类和分组，以识别一些隐藏或未发现的类别，通常用作监督学习的初步步骤。

无监督学习

强化学习

强化学习算法旨在在探索和开发之间找到完美的平衡，而无需标记数据或用户干预。

这些算法通过选择一个动作并观察结果来工作，在此基础上，它了解结果的准确程度。反复重复此过程，直到算法选择正确的策略为止。

流行的机器学习算法

在熟悉了几种类型的ML算法之后，我们继续演示一些流行的算法。

1.线性回归

线性回归是一种监督型ML算法，可帮助找到点集合的近似线性拟合。

线性回归的核心是识别两个变量之间关系的线性方法，其中两个值之一是从属值，另一个是独立的。

其背后的原理是要理解一个变量的变化如何影响另一个变量，从而导致正或负的相关关系。

线性回归以y = a + bx的形式表示为一条线

该线称为回归线，由线性方程Y = a * X + b表示。

在此等式中：

· Y —因变量

· a —坡度

· X-自变量

· b-截距

该算法适用于预测输出是连续的并且具有恒定斜率的情况，例如：

· 估算销售额

· 评估风险

· 天气数据分析

· 预测分析

· 客户调查结果分析

· 优化产品价格

1. Logistic回归

Logistic回归算法通常用于二进制分类问题，在这些情况下，事件通常会导致通过或失败，正确或错误这两个值中的任何一个。

最适合需要预测因变量将属于两类之一的概率的情况。

该算法的常见用例是确定给定的笔迹是否与所讨论的人匹配，或未来几个月的油价是否会上涨。

通常，回归可用于实际应用中，例如：

· 信用评分

· 癌症检测

· 地理图像处理

· 手写识别

· 图像分割与分类

· 衡量营销活动的成功率

· 预测某种产品的收入

· 特定日子会发生地震吗？

1. 决策树

决策树算法属于监督型机器学习，用于解决回归和分类问题。目的是使用决策树从观察并处理每个级别的结果。

决策树是一种自上而下的方法，其中从训练数据中选择最合适的属性作为根，并对每个分支重复该过程。决策树通常用于：

· 建立知识管理平台

· 选择要旅行的航班

· 预测酒店的入住高峰日期

· 向客户建议要买什么车

· 预测预测并确定各个领域的可能性

决策树算法

1. Apriori机器学习算法

它是几种在线平台上经常推荐的算法。

它通过在数据集中搜索通用的数据进行操作，然后在它们之间建立关联。

它通常用于数据挖掘和从关系数据库学习关联规则。

该算法背后的思想是保持相关项目尽可能扩展到更大的集合，以创建更有用的关联。

该算法的应用包括突出显示市场中的购买趋势。

此外，它更易于实现，并且可以用于大型数据集。

1. 朴素贝叶斯

朴素贝叶斯分类器被归类为高效的监督ML算法，并且是最简单的贝叶斯网络模型之一。

它通过对数据应用贝叶斯定理，并假设给定变量的值的情况下，每对特征之间都具有条件独立性。

朴素贝叶斯分类

简而言之，考虑到事件B已经发生，用它来找到事件A发生的可能性。朴素贝叶斯最适合-

· 过滤垃圾邮件

· 推荐系统，例如Netflix

· 对有关技术，政治或体育的新闻文章进行分类

· 社交媒体上的情感分析

· 面部识别软件

1. 人工神经网络

仿照人脑建模的人工神经网络实现了神经元的巨大迷宫，或者说简化并模拟了节点之间相互传递信息的过程。

这些相互连接的节点通过边缘将数据瞬时传递给其他节点，以进行快速处理，从而使学习更加顺畅。

人工神经网络从数据集中学习，而不是通过一组特定的规则进行编程。能够对非线性过程进行建模，它们可以在以下领域中实施：

· 模式识别

· 网络安全

· 数据挖掘

· 检测患者的癌症种类

人工神经网络算法

1. K-Means聚类

k-均值聚类是一种迭代的无监督学习算法，可将n个观察值划分为k个簇，每个观察值均属于最近的簇均值。

K-means算法的步骤

简而言之，该算法基于数据点的相似性来聚合数据点的集合。它的应用范围包括在Python，SciPy，Sci-Kit Learn和data mining等编程语言和库中聚集相似和相关的网络搜索结果。

K均值聚类的实际应用-

1. 识别假新闻

1. 垃圾邮件检测和过滤

1. 按类型对书籍或电影进行分类

1. 规划城市时的热门交通路线

1. 支持向量机

支持向量机被归类为监督机器学习算法，主要用于分类和回归分析。

该算法通过建立一个可以将新示例和新数据分配给一个类别的模型来工作，每个类别间可以容易地区别开来。

在维数大于样本数的情况下，SVM非常有效，并且存储效率极高。

高效的支持向量机算法

SVM应用程序可以在以下领域找到：

· 人脸检测

· 影像分类

· 文本和超文本分类

· 手写识别

· 药物疗法的发现

· 生物信息学-蛋白质，基因，生物学或癌症分类。

1. K近邻算法

K近邻是一种用于回归和分类问题的监督ML算法。

通常用于模式识别，该算法首先存储并使用距离函数识别数据中所有输入之间的距离，选择最接近中心点的k个指定输入并输出：

· 最经常出现的标签（用于分类）

· k个最近邻居的平均值（用于回归）

K近邻算法

该算法的实际应用包括：

· 指纹检测

· 信用评级

· 预测股市

· 分析洗钱

· 银行破产

· 汇率

1. 降维算法

降维算法通过使用两种主要方法（特征选择或特征提取）之一减少数据集中的维度空间或随机变量的数量来工作。

此算法通常用于预处理数据集并删除冗余特征，从而使算法更容易训练模型。

此算法还具有一些不错的好处，例如：

· 内储需求低

· 所需的计算能力更少

· 精度更高

· 降低噪音

一些著名的降维算法是：

· 主成分分析

· 线性判别分析

· 局部线性嵌入

· 多维缩放

1. 主成分分析

主成分分析是ML的无监督算法之一，主要用于通过使用特征消除或特征提取来缩小特征空间的维数。

它也是探索性数据分析和建立预测模型的工具。需要标准化的数据，PCA可以作为帮助：

· 图像处理

· 电影推荐系统

· 计算数据协方差矩阵

· 对协方差矩阵执行特征值分解

· 优化多个通信通道中的功率分配

主成分分析法

PCA旨在减少数据集中的冗余，使其更简单而又不影响准确性。它通常部署在图像处理和风险管理领域。

1. 随机森林

随机森林通过实现决策树使用多种算法来解决分类，回归和其他类似问题。

它的工作方式是，创建带有随机数据集的决策树堆，并在其上反复训练模型以获得接近准确的结果。

最后，将来自这些决策树的所有结果组合在一起，以识别出最常出现在输出中的最合适的结果。

随机森林

可以在以下领域找到"随机森林"应用程序：

1. 银行账户，信用卡欺诈检测

1. 检测并预测药物的药物敏感性

1. 通过分析患者的病历来识别患者的疾病

1. 预测购买特定股票时的估计损失或利润

1. 梯度增强和Ada增强

增强是一种用于集成ML算法的技术，可将弱学习者转换为强学习者。当数据丰富时，需要使用增强算法，并且我们试图减少监督学习中的偏差和方差。以下是两种流行的增强算法。

· 梯度增强

通常以迭代方式（例如决策树）构建预测模型，将梯度增强算法用于分类和回归问题。通过对强者的错误进行培训，从而提高了弱者的学习能力，从而获得了一个比较准确的学习者。

· Ada增强

AdaBoost是Adaptive Boosting的缩写，当弱学习者失败时，它会改进模型。它通过修改附加到样本中实例的权重以将精力更多地集中在困难实例上来实现，然后，弱学习者的输出将被合并以形成加权总和，并被视为最终的提升后的输出。

结论：

机器学习算法对于数据科学家来说至关重要，因为它们在现实世界中的应用日益广泛。使用上述各种算法，您可以找到最适合解决问题的算法。尽管这些算法有有监督也有无监督，但它们可以处理各种任务，并且能够与其他算法同步工作。

作者：Claire D.

deephub翻译组：孟翔杰

Tags：机器学习点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展得很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】

2021-11-08　　Tags: 机器学习点击:(32)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

这是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！英文术语中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】

2021-10-21　　Tags: 机器学习点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

要开始为开源项目做贡献，有一些先决条件：1. 学习一门编程语言：由于在开源贡献中你需要编写代码才能参与开发，你需要学习任意一门编程语言。根据项目的需要，在后期学习另一种语言...【详细内容】

2021-10-20　　Tags: 机器学习点击:(37)　　评论:(0)　　加入收藏

人工智能、机器学习领域13个常见概念

作者：阿米特·V. 乔希（Ameet V Joshi）来源：华章科技 01 人工智能艾伦·图灵（Alan Turing）对人工智能的定义如下：如果窗帘后面有一台机器，并且有人正在与之互动（无论以何...【详细内容】

2021-09-07　　Tags: 机器学习点击:(76)　　评论:(0)　　加入收藏

字节跳动开源云原生机器学习平台 Klever

字节跳动基础架构团队基于火山引擎机器学习平台 Clever 及其丰富的行业落地经验，推出开源项目 Klever，以工程化的方式降低智能技术落地门槛，助力企业快速打造智能业务。作者：陈...【详细内容】

2021-02-19　　Tags: 机器学习点击:(170)　　评论:(0)　　加入收藏

机器学习算法中如何执行回归数据的特征选择

特征选择是识别和选择与目标变量最相关的输入变量子集的过程。特征选择最简单的情况可能是存在数字输入变量和用于回归预测建模的数字目标的情况。这是因为可以计算出每个输...【详细内容】

2021-01-15　　Tags: 机器学习点击:(117)　　评论:(0)　　加入收藏

轻松理解机器学习算法：Adaboost算法

1、集成学习及Boosting算法集成学习属于机器学习，它是一种“训练思路”，并不是某种具体的方法或者算法。集成学习的核心思想是把已有的算法进行结合，从而得到更好的效果。集成...【详细内容】

2020-12-29　　Tags: 机器学习点击:(176)　　评论:(0)　　加入收藏

Python迁移学习：机器学习算法

“终有一天，人工智能会像我们看待非洲平原上低级生物的化石一样看待我们。在人工智能眼中，人类只是直立行走的猿猴，用着粗糙的语言和简陋的工具，从诞生起就注定会灭绝。”&mdash...【详细内容】

2020-12-17　　Tags: 机器学习点击:(147)　　评论:(0)　　加入收藏

一款强大的机器学习可视化IDE

专注Python、AI、大数据，请关注公众号七步编程！人工智能方向的项目，和数据可视化是紧密相连的。模型训练过程中梯度下降过程是什么样的？损失函数的走向如何？训练模型的准确度怎么...【详细内容】

2020-10-15　　Tags: 机器学习点击:(357)　　评论:(0)　　加入收藏

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲(我搞定半个定理都够呛)，或是关于人工智能...【详细内容】

2020-09-25　　Tags: 机器学习点击:(111)　　评论:(0)　　加入收藏

▌简易百科推荐

可解释的AI (XAI)：如何使用LIME 和 SHAP更好地解释模型的预测

作为数据科学家或机器学习从业者，将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中，我将介绍两个...【详细内容】

2021-12-17　　deephub　　　　Tags:AI 　点击:(16)　　评论:(0)　　加入收藏

AI系统中（机器学习算法）导致偏差的原因总结

2021-11-08　　数据学习DataLearner　　　　Tags:机器学习　点击:(32)　　评论:(0)　　加入收藏

人工智能会超过人类吗？顶尖科学家：人工智能在常识判断方面具有局限

11月2日召开的世界顶尖科学家数字未来论坛上，2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】

2021-11-03　　张淑贤　　证券时报　　Tags:人工智能　点击:(39)　　评论:(0)　　加入收藏

火爆业界的边缘计算，到底是什么？

鉴于物联网设备广泛部署、5G快速无线技术闪亮登场，把计算、存储和分析放在靠近数据生成的地方来处理，让边缘计算有了用武之地。边缘计算正在改变全球数百万个设备处理和传输...【详细内容】

2021-10-26　　　　计算机世界　　Tags:边缘计算　点击:(45)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

2021-10-21　　Python部落　　　　Tags:机器学习　点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

2021-10-20　　TSINGSEE青犀视频　　　　Tags:机器学习　点击:(37)　　评论:(0)　　加入收藏

Logistic Regression：最基础的神经网络

SimpleAI.人工智能、机器学习、深度学习还是遥不可及？来这里看看吧~ 从基本的概念、原理、公式，到用生动形象的例子去理解，到动手做实验去感知，到著名案例的学习，到用所学来实现...【详细内容】

2021-10-19　　憨昊昊　　　　Tags:神经网络　点击:(47)　　评论:(0)　　加入收藏

直击痛点 NLP技术的价值和落地｜超级观点

语言是人类思维的基础，当计算机具备了处理自然语言的能力，才具有真正智能的想象。自然语言处理（Natural Language Processing, NLP）作为人工智能（Artificial Intelligence, AI）的核心技术之一，是用计算机来处理、理解以及运...【详细内容】

2021-10-11　　　　36氪　　Tags:NLP 　点击:(49)　　评论:(0)　　加入收藏

边缘计算是个啥？为什么说发展5G离不开它？

边缘计算是什么？近年来，物联网设备数量呈线性增长趋势。根据艾瑞测算， 2020年，中国物联网设备的数量达74亿，预计2025年突破150亿个。同时，设备本身也变得越来越智能化，AI与互联网在...【详细内容】

2021-09-22　　汉智兴科技　　　　Tags: 　点击:(54)　　评论:(0)　　加入收藏

学了这些基础算法，人工智能就算入门了

说起人工智能，大家总把它和科幻电影中的机器人联系起来，而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似，但它们的显著差异在于人工智能...【详细内容】

2021-09-17　　异步社区　　　　Tags:人工智能　点击:(57)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游