人工智能检测器工作原理综述

时间：2023-07-26 15:54:51 来源：51CTO 作者：

译者 | 刘涛

您可能已经使用过一些AI写作检测器，但是现在您想知道AI检测是如何工作的，对么?我不是AI研究专家。但是，我可以从数据科学的角度来解释这个问题。

我将讲述：

什么是AI检测
在训练这些模型时，需要用到哪些技术
谁需要使用它们
其他重要的常见问题

什么是AI检测？

AI检测是利用复杂的机器学习和自然语言处理模型，实现对人工文本与机器文本的区分。它包括使用人工智能检测软件，该软件在已建立的文本库中进行训练，从而开发预测算法，这种算法能够从新的测试材料中识别出模式。然后，您会获得一个概率分值，用于判断该被评估的材料是通过人工创建还是自动创建的。

为什么AI文本检测很重要？

人工智能文本检测对于确保信息的可靠性非常重要，在搜索引擎优化(seo)、学术界和法律领域也能发挥关键作用。

AI内容生成器无疑很有用，而且在竞争中必不可少。但它们同样也是出了名的不可靠。因此，无论是谷歌，还是学校，以及客户，都想要确定内容，您不能不加审核就把原创内容发出去。

您能想象如果人们被允许:

不经事实核实就写有关金钱和生活的话题（YMYL）
发表的期刊文章中“同行评议”这一术语不再具有任何价值
提供通用的AI智能生成的法律建议

信任将不复存在。

这也是为什么您要用到这些工具的原因，因为在大部分时间里，人们并不知道它们之间的区别。

AI文本检测是如何工作的

我们再深入看下这些工具有那些不同的工作方式。

但这里有两个主要概念：

语言分析：检查句子结构以寻找语义或重复。
对比分析：与训练数据集进行比较，寻找与先前识别的实例的相似性。

这些是训练模型以使用上述两个概念来检测 AI 内容时使用的更常见的一些技术。

分类器：AI检测的分类帽

分类器有点像哈利波特中的分类帽，将数据分到预先确定的类中。

使用机器或深度学习模型，这些分类器检查各种特征，如用词、语法、风格和语气，以区分AI生成的文本和人工书写的文本。

想象一个散点图，其中每个数据点都是一个文本条目，这些特征将形成坐标轴。

那么，假设我们有两个类：

AI文本
人工文本

您所测试的任何文本都将属于这两个集群中的一个。下面是我制作的图形，方便您看到。

分类器的工作是形成一个边界来分隔这两个类。

根据使用的分类器模型，一些示例包括：

逻辑回归
决策树
随机森林
支持向量机（SVM）
K-最近邻(KNN)

注意：您不需要知道它们是什么，只需知道它们是以不同方式对数据进行排序的算法。

该边界可能是一条线、曲线或其他一些随机形状。

当您测试一个新文本（数据点）时，分类器会简单地将它们放在这些类中的任何一个中。

嵌入：单词的DNA

如果每个单词都有自己的秘密代码，就像我们在看一些惊心动魄的间谍电影一样，会怎么样？

在人工智能（AI）和语言理解方面，这正是发生的情况。

这些代码被称为嵌入式编码（Embeddings）。本质上，它们是单词唯一的DNA。通过捕捉每个术语背后的核心含义，并理解每个术语在上下文中如何与其他术语相关，这些嵌入式编码形成了一个语义网络。

这是通过将每个单词表示为N维空间中的向量并运行一些高级计算来实现的。它可以是2D、3D或302934809D。

注意：向量是一个同时具有大小和方向的量。但是对于这个解释，只需把它当作是图表上的坐标即可。

但是为什么是向量呢？

因为计算机无法理解单词。令人震惊，但这是现实。因此，必须通过向量化将单词首先转换为数字。以下是一个表格示例：

注意：向量化的文本数值可以具有广泛的取值范围，不仅仅是二进制的1或0。我只是为了更容易地可视化而做出了这样的表格。

这是另一个在二维图形上绘制向量的例子：

我确信您能够想象三维物体的外观，但请不要让我描绘四维物体，因为没人知道会是什么样。然而，通过数学算法，计算机可以使用数学魔法来呈现出四维物体。

这正是谷歌运作的方式。您在搜索栏中输入内容，却能获得与其惊人相关的结果，这是如何实现的呢？

但是，如何区分人工生成的文本与使用 AI 生成的文本呢？

我们将所有文本转换为它们各自的嵌入式向量，然后将它们输入机器学习模型进行训练。

模型即使不知道任何实际的措辞，也会形成所有这些连接，并找出与 AI 生成文本常见的所有“代码”。

但是，如何区分人工生成的文本与使用 AI 生成的文本呢？

我们将所有文本转换为它们各自的嵌入式向量，然后将它们输入机器学习模型进行训练。

模型即使不知道任何实际的措辞，也会形成所有这些连接，并找出与 AI 生成文本常见的所有“代码”。

困惑度（Perplexity）：AI 生成文本的试金石

困惑度是一个衡量概率分布或语言模型能够预测样本精度的指标。

在 AI 生成内容检测的背景下，困惑度作为衡量 AI 生成文本的试金石。困惑度越低，文本由 AI 生成的概率越大。

这就像侦探使用指纹匹配来识别嫌疑人一样。

以下的表格对此进行了详解：

爆发度（Burstiness）：AI 生成文本的标志性特征

爆发度是由 AI 模型生成的句子长度和复杂程度的变化。

想象一下您在一家餐厅里，现场充斥着各种对话，有些大声喧哗，有些安静私密。与这些对话相似，由人写出的句子有很多细微差别，因此常常让人难以预料。

但是，AI 模型产生的结果通常在长度和复杂性上更趋于一致，而人类写作则表现出更多的多样性或者说“爆发性”。如果 AI检测器注意到句子的长度、结构和节奏的细微差异，它们也会将文本标记为潜在的 AI生成文本。

以下表格中的一些例子：

AI 检测的准确性如何？

我会直截了当地告诉您，即使分数为100%，它也永远不会是100%准确的。

那只是模型的置信度。

当 AI 检测器分析文本时，它通常会基于所给材料的显著特征计算每种分类的分数或概率，而不仅仅由人类编写或 AI 生成的内容之间的区别所决定。

例如，假设我们使用 AI 检测器对某些文本进行了分析，它为“AI”和“人类”分别给出了0.7和0.3的分数。

这些数字表示我们的检测器已经大致判断出，我们的材料属于同种类型和非同种类型的概率之比为7:3（70%对30%）。

因此，最终决定是否适用某种类型变得非常容易。

与其把事物划分为“人类”与“AI”，倒不如给它们分配概率度量，这样才能更深入地了解预测的可信度。除了把文字归类成两类外，还需要考虑许多因素来决定文字是由人写的还是由AI写的。

如果所使用的评估方法涉及计算概率得分，则这些得分之间的差距程度可能会影响 AI 模型对预测的确定性。

例如，如果分配给 AI 生成的作品和人工完成的作品的分数之间没有太大的差异（例如得分分别为0.51和0.49），那么检测它们的来源将比它们的概率差距很大的情况更具挑战性（例如获得0.9和0.1的概率差距）。

因此，尽管产生二进制结果，但这个决定包括详细的分析，很大程度上依赖于概率得分之间的差异。

注意：您可能会看到其他文章讨论 AI 检测器如何通过计算每个单词成为下一个预测单词或温度参数（temperature：指一种用于控制生成文本的随机性和创造性的参数，通常使用softmax函数实现）的概率值来工作。这是指 AI 作者的工作方式，而不是 AI 检测器。那些文章完全搞错了搜索意图。

这是一个相当长的段落，但这是我能够最好地解释它的方式。

AI内容检测的前景如何？

随着我们见证人工智能的进一步发展，机器生成内容的复杂程度也在不断增加，这给有效检测此类内容带来了独特的挑战。因此，所有参与其开发过程的人都需要努力创建更加先进和准确的工具，以跟上应对这种复杂性的能力。

准确检测由AI生成的虚假信息对于维护在线信息的可信度至关重要，这将是有效应对这些威胁的唯一途径。

此外，我们需要特别关注与隐私侵犯、违背意愿和潜在的滥用这种强大技术相关的道德考虑。

谁使用AI检测？

以下是一些最受益于使用AI检测的群体：

学校：防止学生滥用AI写作软件。

企业：摆脱垃圾邮件、虚假评论或虚假新闻。

执法机构：消除冒充、身份欺诈和网络欺凌等犯罪活动。

社交媒体平台：清除散布和鼓吹不实信息的机器人和虚假账号。

媒体和新闻组织：识别虚假新闻和宣传，甚至替换过度依赖AI的作家。

政府组织：根除虚假信息的运动和宣传。

常见问题

AI内容检测工具是否存在限制或缺陷？

AI内容检测工具确实存在一些限制和缺陷。随着人工智能产生的内容不断增多，人们越来越难分辨出这些文字是否是由人类产生的，因此它们的准确性并不总是完美的。

此外，AI检测器可能难以识别那些被特意设计成不可被检测出的AI生成内容。未来AI生成和检测技术的发展将共同决定AI检测的局限性程度。

为什么要在SEO中使用AI检测？

尽管谷歌在最近的更新中表示，如果AI生成的内容有价值，就不再会被视为垃圾内容，但关于谷歌是否能够检测到AI生成的内容，仍然有争议。您永远无法真正知道谷歌何时或是否会改变立场而对您进行惩罚。因此，大多数SEO（搜索引擎优化）仍会使用AI检测来确保安全。

AI检测的准确性如何？

AI检测只能准确判断所检测文本与其训练数据的相似程度。它提供的是置信度评分，而不是简单的是或否的结果。

结论

我已经介绍了您需要了解的有关AI检测的所有内容。从为什么需要它，训练这样一个模型背后的真正过程，到它的准确性以及它的前景。

我希望这可以帮助您更好地了解这个话题。

译者介绍

刘涛，51CTO社区编辑，某大型央企系统上线检测管控负责人。

Tags：人工智能点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　Search: 人工智能点击:(4)　　评论:(0)　　加入收藏

谷歌或改变商业模式，人工智能搜索考虑收费

诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案，这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】

2024-04-07　　Search: 人工智能点击:(1)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　Search: 人工智能点击:(6)　　评论:(0)　　加入收藏

关于AI人工智能在写作方面有哪些优势？

随着科技的快速发展，AI人工智能已逐渐渗透到我们生活的方方面面，其中在写作领域的应用也愈发广泛。AI人工智能在写作方面的优势不仅体现在其高效、精准的处理能力上，还体现在其...【详细内容】

2024-03-27　　Search: 人工智能点击:(17)　　评论:(0)　　加入收藏

生成式人工智能在搜索引擎优化（SEO）中的应用顶级案例

原文作者 | Rahul Solanki生成式人工智能正在迅速改变搜索引擎优化 (SEO) 的工作方式。这些新时代的语言模型和机器学习系统不仅可以研究大量信息，还可以理解上下文和含义，并...【详细内容】

2024-03-27　　Search: 人工智能点击:(9)　　评论:(0)　　加入收藏

苹果手机将搭载百度AI技术？百度人工智能A股小伙伴有这些

财联社3月24日讯（编辑若宇俞琪）据华尔街日报周五晚间报道，苹果在中国寻找本土生成式AI提供方，苹果讨论了在中国的设备中使用百度的人工智能技术。受该利好消息刺激，百度美股周...【详细内容】

2024-03-26　　Search: 人工智能点击:(10)　　评论:(0)　　加入收藏

“AI骗局”横行人工智能安全亟待加码

人工智能的“双刃剑”效应日益明显。AI技术在引发科技变革、提升生产力和效率等方面展现了充分的潜力，但与此同时，它带来的安全隐患也越来越凸显。利用深度伪造制造假象、操纵...【详细内容】

2024-03-22　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

马斯克旗下人工智能大模型Grok已正式开源

鞭牛士报道，3月18日消息，据外电报道，埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 迈出了重大一步，开源了其大型语言模型 (LLM) Grok。这意味着企业家、程序员、公司...【详细内容】

2024-03-18　　Search: 人工智能点击:(13)　　评论:(0)　　加入收藏

《2024人工智能安全报告》：2023年AI深度伪造欺诈增长30倍

近日，奇安信集团发布《2024人工智能安全报告》（以下简称《报告》）。《报告》显示，2023年基于AI的深度伪造欺诈增长了3000％，基于AI的钓鱼邮件增长了1000％；目前已发现多个有国家背景的...【详细内容】

2024-03-18　　Search: 人工智能点击:(21)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个

站内最新

栏目相关

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

· 把GPT变成算命大师需要几步？

· Sora开启文生视频新纪元影视游戏产业加速变局求突破

站内热门

人工智能检测器工作原理综述​