浅析多模态机器学习

时间：2023-05-29 15:09:59 来源：51CTO 作者：

GPT-4的发布给ChatGPT带来了又一次飞跃，ChatGPT不仅支持文字输入，还能看得懂图片、甚至是漫画、梗图，以GPT-4为代表的多模态大模型非常强大。多模态大模型就是指模型可以处理多种结构/类型的数据，例如GPT-4，它既可以处理你输入的文本，也可以处理你上传的图片。

那么，多模态到底意味着什么呢？

1. 什么是多模态？

人类有五种基本感官:触觉、视觉、听觉、嗅觉和味觉。与每一种感觉相关的感觉器官向大脑发送信息，帮助我们理解和感知我们周围的世界。然而，事实上，除了这五种基本的感官之外，还有其他的人类感官是你生活中必不可少的。这些鲜为人知的感觉包括空间意识和平衡等。通过这些感官的交互，也就是多模态，以下是最常见的几种模态：

GPT-4专注于语言和视觉作为一些基本的模态。所谓融合，是指将来自两个或多个模态的信息合并以执行预测任务。有两种类型的融合：- 早期融合：模态将在训练早期就连接起来。- 晚期融合：我需要在每个模态早期进行一些处理，然后再将它们组合起来。

看一些现实世界的例子，了解什么是MMML应用：

2. 单模态分类模型及一些基本概念

从单模态的分类模型开始，分析视觉、文本和声音模态的基本处理方法，还试图澄清了数据集、最近邻居、神经网络基础、推理和模型参数等相关术语和概念。

2.1 单模态的分类模型

从一种模态的分类模型开始，例如视觉分类，给定一张图片，它是不是一只狗呢？

这是三个二维矩阵叠加在一起形成的彩色图像，如何解决这个图像分类问题呢？因为大多数神经网络或分类器只接受二维矩阵，为了制作这个输入向量，需要将这个三维向量分解并将它们叠加在一起，就像下面的图像所示的那样。然后，才能能够通过多分类输出来获取目标的对象分类。

对于单模态模型，首先有一个输入，可以是如上所述的3D矩阵，然后将其传递到已经训练好的模型中，得到一个分类（单类或多类）或回归输出。

对于单词、句子或段落这样的模态而言，有两种类型：书面（文本）和声音（转录）。举个例子，假设从一段文本中提取了一个单词，想要了解这是正面还是负面的情绪。该怎么做呢？

为了简单起见，可以使用one-hot向量，这是一个非常长的向量，其长度是字典的长度。这个字典是我们的模型从训练集中创建的，计算出它所发现的所有去重后的单词。对于每一个单词，在向量中有一个索引条目。需要注意的是，某些非常低频的词语，可能不在字典中。

用这个one-hot向量将作为最大熵模型的输入向量，进而进行情绪分类，命名实体分类（名字 vs 地方 vs 实体），或者词性标注（动词，名词，形容词）等。如果想要更细粒度地按单词运行模型，就可以这样做。

但是，如果想要处理更大量的文本，比如一句话或一段话，该怎么办呢？

可以将输入向量变成一个词袋向量，但它仍然是一种one-shot编码，现在对目标文档中的每个单词进行编码，如果一个维度上有这个单词就是1，否则就是0。然后可以运行同样的任务，就像上面做的情绪分类一样。

最后，在看看声音模态。假设正在聆听一个音频，基本上，音频是一个非常长的一维向量，可以使用此向量并运行分类问题以转录语音。在实践中，人们用时间窗口在音频信号中切片，并开始处理该数据集以创建Spectogram。在这个音频中，检查获取了多少低频与高频成分，以千赫为记录在Spectogram中。然后，我们将这个Spectogram转换为模型的输入向量。

除了仅仅进行转录外，还可以使用这些模型来获取情感分类或语音质量。

2.2 相关术语

数据集是带有标签的样本集合，包括：

训练集：在这个训练集上学习分类器
验证集：通过查看L1或L2函数在此处选择最佳的超参数，基本上希望看到哪些超参数会带来最佳的结果。
测试集：在这个保留的测试集上评估分类器。

最近邻居：最简单但仍然是最有效的分类器之一。 - 在训练时间，时间复杂度为O（1），测试时间为O（N） - 它使用距离度量来找到最近的邻居。 - 它将使用L1（曼哈顿）或L2（欧几里得）距离。

2.3 神经网络基础

根据激活函数的不同，一个神经元可以被称为一个线性分类器。神经网络中每个部分的组成和功能如下：

1）定义一个神经元的得分函数，目标是预测该类别标签的得分。例如，对于图像分类问题“这是一只狗、猫、鸟还是猪？”，可以将为鸭子、猫、鸟和猪各设置一个神经元。具有线性激活函数的神经元如下图所示：

接下来，在这里学习权重和偏置值。

定义损失函数（可能是非线性的）
优化参数的权重（考虑梯度下降）

然后，考虑多层前馈神经网络。

这个多层网络由一个输入层，几个隐藏层，以及一个可能包含激活函数的输出层组成。每个前面的隐藏层的输出作为后面层的输入。

最后，我还有两个概念需要澄清：

推理：用于测试。推理可以被看作是通过输入获得评分/输出的过程。它既是获得这个分数的行为，也涉及到它的使用。
模型参数：在训练时使用，将使用基于梯度的方法进行优化。基本上，需要有固定训练的数据，通过学习得到最小损失的权重和偏差。

3. 多模态机器学习的核心问题

多模态是一种新的人工智能范式，其中各种模态（文本、语音、视频、图像）与多种智能处理算法结合，以实现更高的性能。

业界有多种实现多模态的方式，通过多模态机器学习，希望确保该空间中的相似性对应着相应概念的相似性，通过存在的其他模态，给出缺失的模态内容。多模态应用目前包括各种任务，如信息检索、映射和融合。

在多模态机器学习中，大约有五个核心问题——表示、翻译、对齐、融合和协同学习。

3.1 多模态的数据表达

多模态数据的最大挑战是以一种方式总结来自多个模态（或视图）的信息，以便综合使用互补信息，同时过滤掉冗余的模态部分。由于数据的异质性，一些挑战自然而然地出现，包括不同类型的噪声、模态（或视图）的对齐以及处理缺失数据的技术。目前，主要有两种的方法来完成多模态表达：联合表达和协调表达。

协调表达

多模态数据必须在非常弱的（它们的空间不重叠）或非常强的（最终成为联合表示）之间协调，通过结构化的协调来完成嵌入。

协调表达涉及将所有形式投射到它们的空间中，但这些空间使用约束进行协调。这种方法对根本上非常不同并且可能不适用于联合空间的形式更有用。由于自然界中形式的多样性，协调表达在多模态表示领域中比联合表达具有巨大优势，使用约束进行协调是一种强大的方法。

联合表达

联合表达涉及将所有模态投影到一个共同的空间，同时保留来自给定模态的信息。训练和推理时需要所有模态的数据，这可能会使处理缺失数据变得困难。另外，通过递归模型，可以在每个时间步融合模态的不同视图，最终使用联合表示完成手头的任务（如分类，回归等）。

对于所有模态在推断时都存在的任务，联合表达更适合。另一方面，如果缺少其中一种模态，则协调表达更适合。

3.2 多模态机器翻译

多模态机器翻译涉及从多个模态中提取信息，基于这样的假设，附加的模态将包含有用的输入数据的替代视图。在这个领域中最重要的任务是口语翻译、图像引导翻译和视频引导翻译，它们分别利用音频和视觉模态。这些任务与它们的单语对应任务——语音识别、图像字幕和视频字幕——不同之处在于需要模型生成不同语言的输出。(来源) 下面我们可以看到一个图像字幕的例子出了大错:

上述模型无法将视觉场景与语法句子进行同步理解，这对于强大的多模态模型至关重要。多模态翻译模型有两种类型：基于示例的和生成式的。

基于示例的模型将存储一个翻译词典，如上所示，然后将其从一种语言模态映射到另一种。在推理过程中，模型将从字典中提取最接近的匹配项，或通过推断字典提供的信息创建翻译。这些模型需要存储更多的信息，运行速度非常缓慢。

生成模型在推理时不需要参考训练数据即可产生翻译。生成模型有3个类别，分别是基于语法的、变压器模型和连续生成模型。

3.3 多模态的对齐

多模态对齐是找到两种或更多模态之间的关系和对应。

为了对齐不同的模态，模型必须测量它们之间的相似度并处理长距离依赖关系。多模态对齐涉及的其他困难包括缺乏注释数据集、设计好的模态相似性度量以及存在多个正确的对齐方式。主要有两种类型的多模态对齐：- 显式对齐：其目标是找到模态之间的对应关系，并对同一事件的不同模态数据进行对齐。例如：将语音信号与转录对齐。- 隐式对齐：对齐有助于解决不同任务时的模型（例如“注意力”模型）。它是多个下游任务（如分类）的先驱。例如：机器翻译

3.4 多模态的融合

多模态融合可能是更重要的问题和挑战之一。融合是将来自两个或两个以上模态的信息结合起来解决分类或回归问题的实践。使用多个模态提供更强大的预测能力，使我们能够捕获互补信息。即使其中一个模态缺失，多模态融合模型仍可使用。

3.5 协同学习

协同学习是将学习或知识从一种模态转移到另一种模态的挑战。对于在资源有限的模态下建立模型——如缺乏注释数据、嘈杂的输入和不可靠的标签，从资源丰富的模态中转移知识是相当有用的。

小结

多模态机器学习是一种新的人工智能范式，结合各种模态和智能处理算法以实现更高的性能。多模态机器学习中的核心问题包括表示、翻译、对齐、融合和协同学习。其中，多模态数据的表达是最大的挑战之一，需要使用联合表达和协调表达等方法。多模态机器翻译涉及从多个模态中提取信息，基于这样的假设，附加的模态将包含有用的输入数据的替代视图。多模态对齐是找到两种或更多模态之间的关系和对应，多模态融合可能是更重要的问题和挑战之一，协同学习是将学习或知识从一种模态转移到另一种模态的挑战。

Tags：机器学习点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

整治“暗箱操作” 义	网易再牵暴雪的手，实际
注意！密码、验证码都没	将他人商标设为搜索关
打破刚兑：投资者还能相	拜登坐不住了？罕见对美
黄金狂飙如何影响人民	重新审视2008年全球金