您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

2022 年顶级机器学习算法和 Python 库

时间:2022-02-20 12:30:59  来源:  作者:InfoQ
2022 年顶级机器学习算法和 Python 库

 

新的算法很难产生,2022 年可能也不例外。然而,仍有一些机器学习算法和 Python/ target=_blank class=infotextkey>Python 库将在未来更受欢迎。这些算法之所以与众不同,是因为它们包含了一些在其它算法中并不普遍的优点,我会在本文详细讨论这些优点。

 

无论是能够在你的模型中使用不同的数据类型,还是能够将内置算法整合到你当前公司的基础设施中,甚至是能够在一个地方比较几种算法的成功指标,你都可以预计,这些算法和库都会由于各种原因而在明年变得更受欢迎。下面,让我们更深入地了解一下 2022 年的一些新兴算法和库。

CatBoost

CatBoost 可能是最新的算法,因为它随着越来越流行而不断更新。这个机器学习算法对于处理分类数据的数据科学家特别有用。您可以考虑 Random Forest 和 XGBoost 算法的优点,CatBoost 具有它们的大部分优点,同时还具有更多其它的优点。

 

以下是 CatBoost 的主要优点:

 

  • 无需担心参数调整——默认值通常会胜出,通常不值得手动调整,除非您想通过手动更改值来针对特定的异常分布
  • 更准确——不太过拟合,并且当您使用更具分类性的特征时,往往会得到更准确的结果
  • 快速——这种算法往往比其它基于树的算法更快,因为它不必担心用于示例的使用独热编码(one-hot encoding)的大型稀疏数据集,因为它使用了一种目标编码
  • 更快地预测——您可以更快地训练,这样您也就可以更快地使用您的 CatBoost 模型进行预测
  • SHAP——这个库被集成,便于解释整体模型的特征重要性以及特定预测总的来说,CatBoost 非常棒,因为它易于使用、功能强大,在算法领域具有竞争力,并且可以列在您的简历中来增光添彩。它可以帮助您创建更好的模型,最终使您的项目更好地为您的公司服务。

 

CatBoost 的文档在此:https://catboost.AI

DeepAR Forecasting

这个算法内置在流行平台 Amazon SageMaker 中,如果您的公司目前使用 AWS 技术栈或者想要使用 AWS 技术栈,这可能是个好消息。在回归神经网络的帮助下,它用于预测/时间序列应用中的有监督学习。

 

以下是使用这个算法时需要用到的输入文件字段的一些示例:

 

  • start
  • target
  • dynamic _feat
  • cat

 

以下是使用这个算法/架构的一些优点:

易于建模——在相同的地方构建/训练/部署,速度相当快

 

  • 简单的架构——聚焦于更少的编码,更多地关注您的数据和需要解决的业务问题当然,这个算法还有更多优点,所以我只是简单地介绍了下,因为不是所有的读者都在使用 AWS。

 

DeepAR Forcasting 算法的文档在此。

PyCaret

因为没有太多的新算法需要讨论,我想包括一种能够比较几种算法的库,其中一些算法可能会更新迭代,所以比较新。这个 Python 库是开源和低代码的,可以被引用。当我开始比较并最终选择我的数据科学模型的最终算法时,它让我更加了解新的和即将流行的机器学习算法。

 

以下是使用这个库的一些好处:

 

  • 更少的编码时间——您不需要导入库,也不需要设置每个算法特有的每个预处理步骤,相反,您可以填写一些参数,让您可以将几乎所有您听说过的算法并排进行比较
  • 易于使用——随着库的演变,它们的易用性也在不断提高。
  • 端到端处理——可以研究从数据转换到预测结果的数据科学问题
  • 集成良好——可以 Power BI 中使用 AutoML
  • 整合——可以加入不同的算法以获得更多好处
  • 校准和优化模型
  • 关联规则挖掘
  • 更重要的是,一次性比较 20+算法总的来说,这个库虽然并不是一个新算法,但是它很可能包含 2022 年的新算法,或者至少是最新的算法,甚至像上面提到的 CatBoost 这样的算法都包含在这个库中——这就是我如何发现它的。话虽如此,我认为重要的是要包含这个库,这样您不仅可以了解 2022 年的最新算法,还可以了解您以前没有听说过或者错过的比较老的算法,因为您可以通过简单的用户界面将它们并排进行比较。

 

PyCaret 的文档在此。

总结

如果你认为这个列表很短,那么你就会意识到并不是每年都会有一组新的机器学习算法。我希望这里提到的 3 个算法或库能够增添文档并更受欢迎,因为它们非常棒且不同于通常的逻辑回归/决策树等。

 

总而言之,以下是 2022 年可以期待的一些新的机器学习算法:

 

* CatBoost - 算法
* DeepAR Forecasting - 算法/软件包
* PyCaret - 包括新算法的库

 

我希望您会觉得我的这篇文章既有趣又有用。无论您是否同意文中的观点,请随意在下方留言,讲讲为什么支持或反对。您认为我们还可以包括哪些更重要的算法或软件包/库?这些当然可以进一步阐明,但我希望能够阐明一些更独特的机器学习算法和库。

作者介绍

Matt Przybyla 高级数据科学家,人工智能科技和教育领域的顶尖作家,《面向数据科学》(Towards Data Science)供稿作家。

 

原文链接

 

https://towardsdatascience.com/top-machine-learning-algorithms-and-python-libraries-for-2022-86820f7ca67f



Tags:机器学习   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
深入理解机器学习模型的工作原理和算法
机器学习是一种利用数据和算法构建模型,从而实现自动化学习和预测的技术。本文旨在深入探讨机器学习模型的工作原理和算法,包括监督学习、无监督学习和强化学习等。通过了解机...【详细内容】
2024-01-02  Search: 机器学习  点击:(70)  评论:(0)  加入收藏
机器学习模型性能的十个指标
尽管大模型非常强大, 但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比,解释现实中的物理现象,未必要用到量子力学。有些相对简单的问题,或许一个统计分布就足...【详细内容】
2023-12-25  Search: 机器学习  点击:(107)  评论:(0)  加入收藏
机器学习模型参数微调技术的比较研究
在机器学习领域,模型的性能往往取决于参数的选择和调整。参数微调技术是指通过对模型的参数进行优化和调整,以提高模型的性能和泛化能力。随着机器学习领域的不断发展,出现了许...【详细内容】
2023-12-22  Search: 机器学习  点击:(82)  评论:(0)  加入收藏
机器学习开始预测人类生活多个方面
科技日报北京12月19日电 (记者张梦然)《自然·计算科学》18日发表的一项研究描述了一个机器学习方法,该方法能从不同方面准确预测人类生活,包括早死可能性和个性的细微...【详细内容】
2023-12-20  Search: 机器学习  点击:(110)  评论:(0)  加入收藏
Pandas的魅力:从数据处理到机器学习
Part 01、 Series和DataFrame:Pandas的核心Pandas的两个主要数据结构是Series和DataFrame。Series是一维标记数组,类似于Python中的列表。而DataFrame是二维标记数据结构,类似...【详细内容】
2023-12-18  Search: 机器学习  点击:(134)  评论:(0)  加入收藏
数据不平衡处理技术在机器学习中的重要性
在机器学习领域,数据不平衡是一个常见的问题。数据不平衡指的是在训练数据集中,不同类别的样本数量存在明显的不均衡。例如,在二分类问题中,正样本和负样本的比例可能会相差很大...【详细内容】
2023-12-12  Search: 机器学习  点击:(79)  评论:(0)  加入收藏
揭开机器学习转换器架构的神秘面纱
译者 | 朱先忠审校 | 重楼自2017年推出以来,转换器(Transformers)已成为机器学习领域的一支突出力量,彻底改变了专业翻译和自动完成服务的能力。最近,随着OpenAI公司的ChatGPT和M...【详细内容】
2023-12-06  Search: 机器学习  点击:(166)  评论:(0)  加入收藏
非参数贝叶斯方法在机器学习中的应用
非参数贝叶斯方法是机器学习领域中一类重要的统计学习方法,其在处理复杂问题和灵活建模方面具有独特的优势。相比于传统的参数化方法,非参数贝叶斯方法不需要事先对模型参数进...【详细内容】
2023-11-24  Search: 机器学习  点击:(132)  评论:(0)  加入收藏
机器学习中的不平衡数据问题研究
在机器学习领域,数据的不平衡性是一个常见而严重的问题。不平衡数据指的是在训练集中,不同类别的样本数量存在明显的差异。这种情况下,传统的机器学习算法往往会偏向于预测数量...【详细内容】
2023-11-24  Search: 机器学习  点击:(187)  评论:(0)  加入收藏
ChatGPT 使用到的机器学习技术
作者 | Bright Liao在《程序员眼中的 ChatGPT》一文中,我们聊到了开发人员对于ChatGPT的认知。本文来聊一聊ChatGPT用到的机器学习技术。机器学习技术的发展要聊ChatGPT用到...【详细内容】
2023-11-23  Search: 机器学习  点击:(178)  评论:(0)  加入收藏
▌简易百科推荐
小红书、视频号、抖音流量算法解析,干货满满,值得一看!
咱们中国现在可不是一般的牛!网上的网友已经破了十个亿啦!到了这个互联网的新时代,谁有更多的人流量,谁就能赢得更多的掌声哦~抖音、小红书、、视频号,是很多品牌必争的流量洼地...【详细内容】
2024-02-23  二手车小胖说    Tags:流量算法   点击:(17)  评论:(0)  加入收藏
雪花算法详解与Java实现:分布式唯一ID生成原理
SnowFlake 算法,是 Twitter 开源的分布式 ID 生成算法。其核心思想就是:使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛,且 ID 引入了时间戳...【详细内容】
2024-02-03   一安未来  微信公众号  Tags:雪花算法   点击:(53)  评论:(0)  加入收藏
程序开发中常用的十种算法,你用过几种?
当编写程序时,了解和使用不同的算法对解决问题至关重要。以下是C#中常用的10种算法,每个算法都伴随着示例代码和详细说明。1. 冒泡排序 (Bubble Sort):冒泡排序是一种简单的比...【详细内容】
2024-01-17  架构师老卢  今日头条  Tags:算法   点击:(46)  评论:(0)  加入收藏
百度推荐排序技术的思考与实践
本文将分享百度在推荐排序方面的思考与实践。在整个工业界的推广搜场景上,特征设计通常都是采用离散化的设计,需要保证两方面的效果,一方面是记忆,另一方面是泛化。特征都是通过...【详细内容】
2024-01-09  DataFunTalk  微信公众号  Tags:百度推荐   点击:(79)  评论:(0)  加入收藏
什么是布隆过滤器?如何实现布隆过滤器?
以下我们介绍了什么是布隆过滤器?它的使用场景和执行流程,以及在 Redis 中它的使用,那么问题来了,在日常开发中,也就是在 Java 开发中,我们又将如何操作布隆过滤器呢?布隆过滤器(Blo...【详细内容】
2024-01-05  Java中文社群  微信公众号  Tags:布隆过滤器   点击:(91)  评论:(0)  加入收藏
面向推荐系统的深度强化学习算法研究与应用
随着互联网的快速发展,推荐系统在各个领域中扮演着重要的角色。传统的推荐算法在面对大规模、复杂的数据时存在一定的局限性。为了解决这一问题,深度强化学习算法应运而生。本...【详细内容】
2024-01-04  数码小风向    Tags:算法   点击:(100)  评论:(0)  加入收藏
非负矩阵分解算法:从非负数据中提取主题、特征等信息
非负矩阵分解算法(Non-negativeMatrixFactorization,简称NMF)是一种常用的数据分析和特征提取方法,主要用于从非负数据中提取主题、特征等有意义的信息。本文将介绍非负矩阵分解...【详细内容】
2024-01-02  毛晓峰    Tags:算法   点击:(73)  评论:(0)  加入收藏
再谈前端算法,你这回明白了吗?
楔子 -- 青蛙跳台阶一只青蛙一次可以跳上一级台阶,也可以跳上二级台阶,求该青蛙跳上一个n级的台阶总共需要多少种跳法。分析: 当n=1的时候,①只需要跳一次即可;只有一种跳法,即f(...【详细内容】
2023-12-28  前端爱好者  微信公众号  Tags:前端算法   点击:(113)  评论:(0)  加入收藏
三分钟学习二分查找
二分查找是一种在有序数组中查找元素的算法,通过不断将搜索区域分成两半来实现。你可能在日常生活中已经不知不觉地使用了大脑里的二分查找。最常见的例子是在字典中查找一个...【详细内容】
2023-12-22  小技术君  微信公众号  Tags:二分查找   点击:(79)  评论:(0)  加入收藏
强化学习算法在资源调度与优化中的应用
随着云计算和大数据技术的快速发展,资源调度与优化成为了现代计算系统中的重要问题。传统的资源调度算法往往基于静态规则或启发式方法,无法适应动态变化的环境和复杂的任务需...【详细内容】
2023-12-14  职场小达人欢晓    Tags:算法   点击:(169)  评论:(0)  加入收藏
站内最新
站内热门
站内头条