如何确保数据与人工智能的完整性？

时间：2022-03-15 10:16:25 来源：作者：朋湖网

本文发自“VentureBeat”，原题为“Data and AI are keys to digital transformation – how can you ensure their integrity?”，作者Ashleigh Hollowell，经朋湖网作者王姿蝶编译整理，供业内参考。

如果说数据是数字经济的新石油，那么人工智能（AI）就是蒸汽机。好似石油和蒸汽机为运输提供燃料，并推动工业革命一样，掌握数据与人工智能力量的公司同时也掌握着创新关键。

2022年，数据和人工智能为数字革命新篇章奠定基础，并为越来越多的全球公司提供动力。那么，公司如何确保责任和道德是这些革命性技术的核心？

定义数据和人工智能的责任

注释者和数据标记者间缺少多元化样本是导致AI 偏差的最大因素之一。

VentureBeat数据峰会的小组成员、东北大学Khoury计算机科学学院公民人工智能实验室的助理教授兼主任Saiph Savage表示，负责任的人工智能需要从具有包容性的基础工作开始做起。

“其中要考虑的关键问题是，需要不同类型的劳动力为其进行数据标记。”Savage在VentureBeat的数据峰会上表示，假设工人仅来自纽约，那么，其与来自农村地区的工人信息标签方式就存在不同。这取决于工人不同类型的经历和不同类型的偏见。”

据行业专家解释，当今生产中的大量AI模型需要带注释、标记的数据来学习，用以增强AI的智能，并最终增强机器整体能力。

能够支持这一点的技术很复杂，其中包括自然语言处理 (NLP)、计算机视觉和情感分析等，而这些技术的复杂性将决定训练人工智能的误差范围。

研究表明，即使是著名的NLP语言模型中也包含种族、宗教、性别和职业偏见。同样，在研究人员所记录的计算机视觉算法中的偏见证据显示，这些模型会自动从在线刻板地描绘人群（按种族、性别、体重等）的数据中学习到偏见，即使是情绪分析模型也面临同样的挑战。

全球数据标签平台Toloka AI的数据峰会小组成员兼首席执行官Olga Megorskaya认为，负责任的人工智能很重要，但是，它只有在可操作的情况下才能发挥作用。面向企业时，负责任人工智能需要随时监控生产中部署的模型质量及人工智能决策来源。用户需要了解模型训练数据，并根据模型运行的上下文来对其不断进行更新。因此，负责任的人工智能意味着需要负责任地对待训练人工智能模型的幕后行动人，而这也是现阶段许多研究人员和大学密切合作的地方。

可解释性和透明度

如果负责任的人工智能具有可操作性，那么人工智能背后的可解释性和透明度与信息情绪同样重要。这些信息情绪将取决于处理数据的注释员和标签商以及使用Toloka等服务的公司客户。

Toloka自2014年启动起，便将自己定位于众包平台和微任务处理项目，即从全球范围寻找不同的个人，用以快速标记大量数据，然后用于机器学习和改进搜索算法。

在过去八年间，Toloka已然扩张，现阶段，该项目拥有来自全球100多个国家的数据注释和标签的20多万用户。同时，Toloka还开发了工具来帮助检测数据集和工具中的偏差，这些工具能够快速反馈可能会影响请求公司接口、项目或工具等与标记项目有关的问题。此外，Toloka还与Savage工作的东北大学Khoury计算机科学学院的Civic AI实验室中的研究人员存在密切合作。

Megorskaya表示，人工智能和数据标签市场的公司应该努力实现透明度和可解释性，这将“符合工人的利益，也符合企业的利益，使其成为每个人都能从共同发展中获得优势的双赢局面。”

Megorskaya建议企业保持对以下内容的调整，以确保内部和外部的透明度和可解释性：
1、不断调整人工智能培训的数据，使用能够反映当前的现实生活情况的数据。
2、衡量模型质量，并使用这些信息来构建模型质量指标，用以跟踪改进超时性能。
3、保持灵活度，将透明度视为数据标签人在进行注释时应遵循的可见性准则。
4、保证反馈易于访问，并优先处理。

例如，Toloka的平台提供了对可用任务的可见性以及为从事这项工作的标签工提供出指南，确保进行标签的工人和公司能够进行直接、快速的反馈循环。如果需要调整标签规则或指南，其就可以在短时间内进行更改。而这一标准，为标签团队提供了空间，让他们能够以更统一、准确及更新的方式处理数据标签过程的其余部分，用以人为本的方法解决可能出现的偏见留出空间。

将“人性”推向创新的最前沿

Megorskaya和Savage均表示，通常，外包标签和培训人工智能模型的公司是不会选择与实际标记数据的个人进行互动的。因此，公司把数据标签和注释任务留给第三方或外包的决定将使得其本身在人工智能负责任开发方面造成裂痕。

Toloka认为，消除人工智能生产领域偏见并打破系统断开的循环，能够让人工智能和机器学习更具包容性和代表性。

而他们也希望能够为这一变化铺平道路，并让开发工程师要求公司面对面地与数据标签商会面。这样一来，能够了解到其数据和人工智能存在的用户多样性。若公司技术影响到真实人员、地点和社区的可见性，工程最终将造成差距，而消除这一差距将为团队建造出更有利的发展。

"在现代世界，非有效人工智能模型可以根据一小部分预选人员收集的一些数据进行培训，而他们一生都在做这个注释。”Megorskaya说道。

现下，Toloka正在构建数据表用以展示工人可能存在的偏见。

“当您进行数据标签时，这些工作表会显示员工拥有的背景类型及可能缺少的背景等信息。”Savage解释道，这对开发人员和研究人员来说特别有帮助，这样他们就可以做出决定，获得下次运行中可能缺失的背景和视角，使模型更具包容性。

尽管每个数据集和模型中都涵盖无数种族、人员背景及经验似乎是一项艰巨的任务。但对此，Savage和Megorskaya强调，对企业、研究人员和开发人员而言，增强公平和负责任的人工智能的最重要的方法就是让尽可能多的主要利益相关者参与进来，因为纠正偏见是比这项工作更困难的任务。

“人工智能很难做到绝对负责和合乎道德，但尽可能贴近这一目标十分重要。”Megorskaya表示，需要拥有尽可能广泛和包容的代表性，以便为工程师提供负责任地有效构建人工智能的最佳工具。

Tags：人工智能点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

人工智能耗电凶猛，科技巨头寻求核聚变发电

第一财经作者：朱颖人工智能(AI)是电老虎，每天在吞噬巨大的电能。据报道，OpenAI的ChatGPT每天消耗超过50万千瓦时的电力，以响应2亿个用户的请求，而美国一个家庭平均每天的用电量...【详细内容】

2024-04-15　　Search: 人工智能点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

谷歌或改变商业模式，人工智能搜索考虑收费

诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案，这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】

2024-04-07　　Search: 人工智能点击:(8)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　Search: 人工智能点击:(10)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

关于AI人工智能在写作方面有哪些优势？

随着科技的快速发展，AI人工智能已逐渐渗透到我们生活的方方面面，其中在写作领域的应用也愈发广泛。AI人工智能在写作方面的优势不仅体现在其高效、精准的处理能力上，还体现在其...【详细内容】

2024-03-27　　Search: 人工智能点击:(24)　　评论:(0)　　加入收藏

生成式人工智能在搜索引擎优化（SEO）中的应用顶级案例

原文作者 | Rahul Solanki生成式人工智能正在迅速改变搜索引擎优化 (SEO) 的工作方式。这些新时代的语言模型和机器学习系统不仅可以研究大量信息，还可以理解上下文和含义，并...【详细内容】

2024-03-27　　Search: 人工智能点击:(16)　　评论:(0)　　加入收藏

苹果手机将搭载百度AI技术？百度人工智能A股小伙伴有这些

财联社3月24日讯（编辑若宇俞琪）据华尔街日报周五晚间报道，苹果在中国寻找本土生成式AI提供方，苹果讨论了在中国的设备中使用百度的人工智能技术。受该利好消息刺激，百度美股周...【详细内容】

2024-03-26　　Search: 人工智能点击:(18)　　评论:(0)　　加入收藏

“AI骗局”横行人工智能安全亟待加码

人工智能的“双刃剑”效应日益明显。AI技术在引发科技变革、提升生产力和效率等方面展现了充分的潜力，但与此同时，它带来的安全隐患也越来越凸显。利用深度伪造制造假象、操纵...【详细内容】

2024-03-22　　Search: 人工智能点击:(8)　　评论:(0)　　加入收藏

马斯克旗下人工智能大模型Grok已正式开源

鞭牛士报道，3月18日消息，据外电报道，埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 迈出了重大一步，开源了其大型语言模型 (LLM) Grok。这意味着企业家、程序员、公司...【详细内容】

2024-03-18　　Search: 人工智能点击:(14)　　评论:(0)　　加入收藏

▌简易百科推荐

ChatGPT 应用商店？可能是一个万能应用程序！

OpenAI 在去年 11 月召开了一次开发者大会，首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示，它将很快推出一个市场，开发人员和非技术人员...【详细内容】

2024-04-12　　视角先锋队　　　　Tags:ChatGPT 　点击:(8)　　评论:(0)　　加入收藏

Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道，昨日大数据分析和指标平台供应商Kyligence（硅智信息）召开了数智论坛暨春季发布会，并分享和探讨Data+AI产品及解决方案在金...【详细内容】

2024-04-12　　　　智东西　　Tags:Kyligence 　点击:(7)　　评论:(0)　　加入收藏

百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

智东西（公众号：zhidxcom）作者| 香草编辑| 李水青智东西4月11日报道，今日，在百度Create AI开发者大会预沟通会上，百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】

2024-04-12　　　　智东西　　Tags:Create AI 　点击:(6)　　评论:(0)　　加入收藏

李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先

界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日，界面新闻获悉，百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源，以及对于大模型开源...【详细内容】

2024-04-12　　　　界面　　Tags:李彦宏　点击:(5)　　评论:(0)　　加入收藏

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

中新社北京4月11日电 (记者马帅莎)到明年底或2026年，人工智能(AI)或超越“最聪明的人”，美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注，这比他去年...【详细内容】

2024-04-12　　　　中国新闻网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(5)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(10)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

美媒：拜登支持率与特朗	华为纯血鸿蒙真机界面
Meta如何将缓存一致性	兄弟，王者荣耀的段位排
雷军：10年编程路，给程序	5月新政策实施，电动车
新“国九条”，你真看懂	网友喊话刘强东开直播