您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

如何处理生产环境中的数据和机器学习偏误?

时间:2023-04-28 14:03:38  来源:51CTO  作者:布加迪

译者 | 布加迪

审校 | 重楼

您是否需要确定自己的数据集存在性别或种族方面的偏误?是否需要确保所使用的机器学习模型没有偏误,即使数据有偏误?如果您对上述问题的回答是肯定的,那么这篇文章就适合您阅读。

偏误简介

偏误是指有意识或无意识地倾向于某一特定群体,通常排斥其他人群。对于属于某些种族、民族、性别、能力和宗教群体的人来说,偏误会导致歧视,并在机会和成功方面造成系统性障碍。在有偏误的世界中生成的数据本身就是有偏误的。创建和部署机器学习模型总是伴随着显著的偏误风险。因此,机器学习解决方案环境应该提供人类可用的解释以检测和纠正偏误。

问责制和可访问性在处理偏误方面至关重要。需要问责制确保任何注意到偏误的人都能采取行动。生产环境中机器学习系统的可访问性便于及时处理偏误。审计日志可以部分解决问责制。通过自动化和易于使用的UI/UX降低机器学习的进入门槛有助于提高可访问性。

本文将解释如何通过针对数据和机器学习模型的系统来检测和处理与数据相关的偏误和与模型相关的偏误。按照定义,与数据相关的偏误是数据集中已经存在的偏误。比如在客户流失预测用例中,90%的数据集可能含有白人客户,导致数据集存在种族偏误。按照定义,与模型相关的偏误指模型内生成的偏误。在这种情况下,由于白人占人口的90%,旨在尽量减小误差的模型可以更好地预测白人的流失,从而导致模型出现种族偏误。若使用这种模型采取行动以防止客户流失,会导致非白人群体得不到充足的服务。

数据偏误的检测

当数据集的一些变量值比其他变量值更频繁地出现时,就会出现第一种、也是最常见的数据相关偏误(代表偏误)。比如在临床试验中,90%的参与者可能是男性。

通过重新采样数据以平等地代表不同的群体,可以部分地处理代表偏误。然而,当代表性不足的群体的信息和细节较少时,机器学习模型对这个群体的学习可能会较少。

当存在与目标特征高度相关的变量时,也会出现与数据相关的偏误。为了根据某些敏感特征检测偏误,可以计算出特征相关性(即每列相对目标特征的相关性)。用户可以忽略可能导致偏误的高度相关的敏感特征,比如性别或年龄。请注意,线性相关测量可能不适用于同时含有离散特征和连续特征(即非线性相关性)的数据集。使用归一化互信息有助于解决这个问题。

即使去除了敏感的相关特征,也可能存在与那些敏感特征相关的其他特征。比如说,邮政编码可能与种族高度相关。即使从模型构建中去除种族,保留邮政编码仍然可能导致有偏误的模型。根据变量之间的相关性对变量进行聚类或分组可能有助于检测和去除这类相关特征。检测复杂数据偏误的另一种方法是为每个敏感特征创建机器学习模型。应该忽略机器学习模型中对这些敏感特征的预测贡献最大的特征。

机器学习模型偏误的检测

对于与模型相关的偏误,要同时考虑机器学习模型的输入和模型的输出预测。当数据集不平衡时,敏感特征可能与目标特征过于相关而导致偏误。一些机器学习平台在构建模型时分配自动类权重,以强调未充分代表的类。

机器学习模型解释也有助于检测和预防与模型相关的偏误。存在局部或全局特征的重要性,比如SHAP或LIME,提供了关于每个特征的值如何影响模型结果的信息。比如说,如果年龄增加导致信用评分预测降低,那么模型具有与年龄相关的偏误。然而,很难确定偏误在模型中的确切位置。可以使用易于解释的代理模型解释,比如线性模型或决策树。代理模型近似并解释用于决策制定的底层机器学习模型。它们允许更细粒度地检测偏误。决策树代理模型包含模型预测的自动生成的微分段,每个类似一个规则(比如说,如果代理类型是老年人,性别是男性,那么该客户就会流失)。

检测到机器模型上的偏误(或任何其他问题)后,行动的容易程度和速度决定了解决集训的速度有多快。创建并共享数据和模型解释可以帮助用户更快地采取行动。

结语

你可以系统地检测和预防数据和机器学习模型中的偏误。比如通过雇用来自不同背景的用户,并为他们提供人工智能,不仅有助于更好地检测和预防偏误,还有助于纠正偏误检测系统或机器学习模型失败或被人做手脚的情况。

原文标题:How To Handle Data And machine Learning Bias In Production,作者:Zehra Cataltepe



Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 数据  点击:(2)  评论:(0)  加入收藏
统计局解读3月份CPI和PPI数据:CPI季节性回落 PPI环比降幅收窄
2024年3月份CPI季节性回落 PPI环比降幅收窄——国家统计局城市司首席统计师董莉娟解读2024年3月份CPI和PPI数据国家统计局今天发布了2024年3月份全国CPI(居民消费...【详细内容】
2024-04-11  Search: 数据  点击:(1)  评论:(0)  加入收藏
美国3月CPI数据全线高于预期 6月首降希望基本破灭
财联社4月10日讯(编辑 牛占林)当地时间周三,美国劳工部公布的数据显示,因汽油和住房价格上涨,美国基础通胀率连续第三个月超预期,强化了美联储在降息方面的谨慎态度。有不少分析师...【详细内容】
2024-04-10  Search: 数据  点击:(2)  评论:(0)  加入收藏
暴雪公布国服规则:当服务器开启时,将保证账号数据被完整保留
新浪科技讯 4月10日上午消息,暴雪娱乐、微软游戏与网易今日共同宣布,暴雪娱乐旗下的游戏作品,将根据更新后的游戏发行协议自今年夏季开始陆续重返中国大陆市场。消息公布后,暴雪...【详细内容】
2024-04-10  Search: 数据  点击:(2)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 数据  点击:(1)  评论:(0)  加入收藏
尾盘:美股继续下滑 市场等待通胀数据
北京时间10日凌晨,美股周二尾盘继续下滑。在3月CPI与PPI等关键通胀数据公布前,市场情绪谨慎。摩根大通等大型银行将在本周公布财报,由此拉开美股一季报的帷幕。道指跌180.19点,...【详细内容】
2024-04-10  Search: 数据  点击:(2)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08  Search: 数据  点击:(9)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08  Search: 数据  点击:(2)  评论:(0)  加入收藏
国家数据局首次召开全国性工作会议 释放哪些信号?
数据工作不仅事关经济社会发展、人们生产生活,也关乎国家发展与安全大局,其重要性不言而喻。我国是数据生产和应用大国,也是世界上首个提出数据要素理论的国家。正因为此,全国数...【详细内容】
2024-04-07  Search: 数据  点击:(5)  评论:(0)  加入收藏
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  Search: 数据  点击:(5)  评论:(0)  加入收藏
▌简易百科推荐
即将过时的 5 种软件开发技能!
作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈(微信号:blog51cto) 时至今日,AI编码工具已经进化到足够强大了吗?这未必好回答,但从2023 年 Stack Overflow 上的调查数据来看,44%...【详细内容】
2024-04-03    51CTO  Tags:软件开发   点击:(6)  评论:(0)  加入收藏
跳转链接代码怎么写?
在网页开发中,跳转链接是一项常见的功能。然而,对于非技术人员来说,编写跳转链接代码可能会显得有些困难。不用担心!我们可以借助外链平台来简化操作,即使没有编程经验,也能轻松实...【详细内容】
2024-03-27  蓝色天纪    Tags:跳转链接   点击:(13)  评论:(0)  加入收藏
中台亡了,问题到底出在哪里?
曾几何时,中台一度被当做“变革灵药”,嫁接在“前台作战单元”和“后台资源部门”之间,实现企业各业务线的“打通”和全域业务能力集成,提高开发和服务效率。但在中台如火如荼之...【详细内容】
2024-03-27  dbaplus社群    Tags:中台   点击:(9)  评论:(0)  加入收藏
员工写了个比删库更可怕的Bug!
想必大家都听说过删库跑路吧,我之前一直把它当一个段子来看。可万万没想到,就在昨天,我们公司的某位员工,竟然写了一个比删库更可怕的 Bug!给大家分享一下(不是公开处刑),希望朋友们...【详细内容】
2024-03-26  dbaplus社群    Tags:Bug   点击:(5)  评论:(0)  加入收藏
我们一起聊聊什么是正向代理和反向代理
从字面意思上看,代理就是代替处理的意思,一个对象有能力代替另一个对象处理某一件事。代理,这个词在我们的日常生活中也不陌生,比如在购物、旅游等场景中,我们经常会委托别人代替...【详细内容】
2024-03-26  萤火架构  微信公众号  Tags:正向代理   点击:(11)  评论:(0)  加入收藏
看一遍就理解:IO模型详解
前言大家好,我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢,先问问大家几个问题哈~什么是IO呢?什么是阻塞非阻塞IO?什么是同步异步IO?什么是IO多路复用?select/epoll...【详细内容】
2024-03-26  捡田螺的小男孩  微信公众号  Tags:IO模型   点击:(9)  评论:(0)  加入收藏
为什么都说 HashMap 是线程不安全的?
做Java开发的人,应该都用过 HashMap 这种集合。今天就和大家来聊聊,为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说,HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】
2024-03-22  Java技术指北  微信公众号  Tags:HashMap   点击:(11)  评论:(0)  加入收藏
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai作者:Sebastian Raschka机器之心编译编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大...【详细内容】
2024-03-21  机器之心Pro    Tags:LoRA   点击:(12)  评论:(0)  加入收藏
这样搭建日志中心,传统的ELK就扔了吧!
最近客户有个新需求,就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的...【详细内容】
2024-03-20  dbaplus社群    Tags:日志   点击:(4)  评论:(0)  加入收藏
Kubernetes 究竟有没有 LTS?
从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年,一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】
2024-03-15  云原生散修  微信公众号  Tags:Kubernetes   点击:(6)  评论:(0)  加入收藏
站内最新
站内热门
站内头条