您当前的位置:首页 > 电脑百科 > 人工智能

轻松掌握MLOps的操作指南

时间:2023-09-13 11:00:38  来源:51CTO  作者:

译者 | 崔皓

审校 | 重楼

摘要

本文强调MLOps(机器学习运营)的重要性,并详细介绍了其五个关键阶段:问题框架、解决方案框架、数据准备、模型构建和分析以及模型服务和监控。文章通过一个金融科技案例研究,详细解释了如何在实践中应用这五个阶段。最后,文章强调了实施MLOps的好处,包括解决业务问题、使用正确的工具、善用代表问题的数据集、构建最优的机器学习模型,以及部署和监控模型。

开篇

许多数据科学项目因为各种原因都不为人所知。MLOps就是其中一个, MLOps指的是从数据阶段到部署阶段的过程,它可以确保机器学习模型的成功。在这篇文章中,你将了解到MLOps的关键阶段(从数据科学家的角度)以及一些常见的陷阱。

小贴士:MLOps市场在2019年估计为232亿美元,并预计到2025年将达到1260亿美元,原因是MLOps被业内广泛应用。

MLOps的动机

MLOps是一种专注于运营数据科学模型的实践。通常,在大多数企业中,数据科学家负责建模数据集,预处理数据,进行特征工程,最后构建模型。然后,模型被“扔”给工程团队,以便部署成API或者站点。在这个过程中,科学(建模)和工程(部署)往往在各自的孤岛中进行,两部分工作的隔离导致部署延迟,在最坏的情况下,会导致部署错误。MLOps可以快速准确地部署企业规模的ML模型。数据科学往往被人认为 “说起来容易做起来难”。MLOps就是这一领域的灵丹妙药,用来根治从模型学习到生产部署的各种疑难杂症。其实数据科学家都清楚,90%的ML模型并没有投入生产。MLOps给数据科学和工程团队带来了标准和流程,确保他们紧密且持续地合作。这种合作对于确保模型成功部署至关重要。

简述MLOps

对于熟悉DevOps的人来说,MLOps对于机器学习应用就像DevOps对于软件应用一样重要。MLOps有多种形式,然而有五个关键阶段对于MLOps策略至关重要,同时每个阶段都需要与利益相关者进行沟通。下面我们就展开说明有哪五个阶段:

问题框架

深入理解业务问题。这是成功部署模型和使用的关键。在这个阶段需要与所有的利益相关者进行交流,从而获得项目的支持。包括工程、产品、合规等。

解决方案框架

只有在问题陈述被详细讨论之后,才开始考虑“如何”以及是否需要机器学习来解决业务问题?一开始,作为数据科学家,我建议避开机器学习,这一举动可能会让人觉得奇怪。因为“巨大的力量带来的是巨大的责任”。我们只要确保机器学习模型被建立、部署和仔细监控,以确保它满足并继续满足业务需求。同时,在这个阶段也应该与利益相关者讨论时间表和资源。

数据准备

一旦决定走机器学习的路线,就开始考虑“数据”。这个阶段包括数据收集、数据清洗、数据转换、特征工程和标签(对于监督学习)。这里需要记住的格言是“垃圾输入,垃圾输出”。这个步骤通常是过程中最痛苦的步骤,对于确保模型成功至关重要。确保多次验证数据和特征,以确保它们与业务问题相符。记录你在创建数据集时做出的所有假设。例如:一个特征的异常值真的是异常值吗?

模型构建和分析

在这个阶段,需要构建和评估多个模型,选择最能解决问题的模型架构。选择的优化指标应反映业务需求。现在,有许多机器学习库可以加快这个步骤。记住记录和跟踪你的实验,以确保机器学习流水线的可重复性。

模型服务和监控

一旦我们从前一阶段构建出模型对象,需要考虑如何让最终用户“使用”它。最小化响应延迟,以及最大化吞吐量。部署服务模型为REST API端点,并将其部署到云上的Docker容器或在边缘设备上。即便是顺利部署了服务,但也不能高兴得太早,因为还存在变数。例如,生产中的数据可能会漂移,导致模型衰退,或者模型会受到对抗性攻击。我们需要为机器学习应用建立强大的监控基础设施。这里需要监控两件事:

1.部署环境的健康状况(例如:负载,使用情况,延迟)

2. 模型本身的健康状况(例如:性能指标,输出分布)。

在这个阶段也需要确定监控频率。每天、每周还是每月监控ML应用程序?至此,已经建立、部署和监控了一个健壮的机器学习应用程序。但是,轮子并没有停止旋转,因为上述步骤需要不断迭代。

 

金融科技案例研究

为了将上述五个阶段付诸实践,我们会举一个案例作为最佳实践的参考。假设你是一家金融科技公司的数据科学家,负责部署一个用于检测欺诈交易的欺诈模型。在这种情况下,首先要深入研究检测的欺诈类型(是第一方还是第三方?)。交易如何被确定为欺诈或非欺诈?是由最终用户报告的,还是你必须使用启发式方法来识别欺诈?谁会使用模型?它将实时使用还是批量模式?回答上述问题对解决这个业务问题至关重要。

接下来,考虑什么解决方案最能解决这个问题。你需要机器学习来解决这个问题,还是可以从简单的启发式方法开始来处理欺诈?所有的欺诈是否都来自一小部分IP地址?

如果你决定构建一个机器学习模型(假设这个案例是监督学习),你将需要标签和特征。你将如何处理缺失的变量?异常值呢?欺诈标签的观察窗口是多少?即用户报告欺诈交易需要多长时间?是否有一个数据仓库可以用来构建特征?在向前移动之前,确保验证数据和特征。这也是与利益相关者就项目方向进行交流的好时机。

一旦你有了所需的数据,就构建模型并进行必要的分析。确保模型指标与业务使用相符。(例如:对于这个用例,可能是第一分位数的召回率)。所选的模型算法是否满足延迟要求?

最后,与工程协调部署和服务模型。因为欺诈检测是一个非常动态的环境,欺诈者努力保持在系统前面,所以监控非常重要。对数据和模型都有一个监控计划。例如,人口稳定性指数(PSI)是常用的跟踪数据漂移的措施。你将多久重新训练一次模型?

现在,你可以成功地通过使用机器学习(如果需要的话!)来减少欺诈交易,从而创造商业价值。

结论

希望在阅读这篇文章后,你能够理解MLOps给企业实现机器学习到部署带来的益处。总的来说,MLOps能够给数据科学团队带来如下优势:

  • 解决正确的业务问题
  • 使用正确的工具来解决问题
  • 利用代表问题的数据集
  • 构建最优的机器学习模型
  • 最后部署和监控模型以确保持续的成功

然而,要注意常见的陷阱,以确保你的数据科学项目不会成为数据科学墓地的一块墓碑!数据科学应用是一个活生生的东西。数据和模型需要持续被监控。从一开始就应该考虑AI治理,而不是作为事后的想法。牢记这些原则,我相信你可以真正地利用机器学习(如果需要的话!)创造商业价值。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。

原文标题:How to MLOps like a Boss: A Guide to machine Learning without Tears,作者:Natesh Babu Arunachalam



Tags:MLOps   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
生成式人工智能潜力的释放:软件工程师的MLOps和LLM部署策略
译者 | 李睿审校 | 重楼生成式人工智能最近的爆发标志着机器学习模型的能力发生了翻天覆地的变化。像DALL-E 2、GPT-3和Codex这样的人工智能系统表明,人工智能系统在未来可以...【详细内容】
2023-12-18  Search: MLOps  点击:(116)  评论:(0)  加入收藏
轻松掌握MLOps的操作指南
译者 | 崔皓审校 | 重楼摘要本文强调MLOps(机器学习运营)的重要性,并详细介绍了其五个关键阶段:问题框架、解决方案框架、数据准备、模型构建和分析以及模型服务和监控。文章通...【详细内容】
2023-09-13  Search: MLOps  点击:(370)  评论:(0)  加入收藏
MLOps的角色是什么?
你有兴趣成为一名 MLOps 工程师吗?今天详细了解 MLOps 工程师角色。所以已经建立了一个机器学习模型。它在验证数据集上达到了预期的性能。很高兴能够应用数据科学和机器学习...【详细内容】
2023-04-27  Search: MLOps  点击:(68)  评论:(0)  加入收藏
AI新概念MLOps横空出世,赋能AI加速(附股)
随着ChatGPT的推出,人工智能相关产业链受到持续关注和热议,其中涌现了一系列新兴的技术趋势。首先,AIGC(全称:AI生成内容)成为一个热门话题,随后由于算力需求的不断增长,CPO(全称:云原...【详细内容】
2023-04-04  Search: MLOps  点击:(246)  评论:(0)  加入收藏
DataOps、MLOps和AIOps,你要的是哪个Ops?
两年前,由于我领导的运维团队效率低下,我“赢得”了耻辱的勋章。我具有数据科学和机器学习的背景,因此,我们想当然的从工程团队的同事那里学来了 DevOps。...【详细内容】
2021-02-05  Search: MLOps  点击:(447)  评论:(0)  加入收藏
MLOps介绍:机器学习技术债
作者:Vincent Tatan编译:ronghuaiyang正文共:3392 字 8 图预计阅读时间:10 分钟导读为什么机器学习是你最大的噩梦。 你最大的机器学习噩梦【凌晨3点】快来!我们的定价全搞砸了!我...【详细内容】
2020-06-30  Search: MLOps  点击:(482)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条