您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

数据架构中的数据问题

时间:2023-03-06 13:33:22  来源:微信公众号  作者:喔家ArchiSelf


近来,ChatGPT再一次激发了人们对通用人工智能的热情,甚至到了人人都在谈AIGC的地步。然而,大模型对数据丰富性的依赖更加严重,面向机器学习以及深度学习的数据架构又是怎样的呢?

“Garbage in,Garbage out”,数据获取已经成为许多机器学习应用中的关键问题,甚至成为了瓶颈,深度学习的兴起进一步加剧了这一问题。尽管高质量的机器学习模型最终从昂贵的开发和高度专业化的代码过渡到了更像商品的东西,但这些模型涉及数百万甚至数百亿个参数,需要大量数据进行训练。因此,当今机器学习的主导模式是每当面临新任务时就创建一个新的大型数据集。虽然这种方法取得了重大进展,但收集大量高质量的数据集往往需要耗费大量的时间和人力资源。对于某些任务,例如罕见疾病的检测,构建大型数据集几乎是不可行的。

在一个软件系统中,尤其是机器学习驱动的软件系统,如何解决数据匮乏的问题呢?

数据匮乏在机器学习领域普遍存在,在监督式学习中尤为突出,但也适用于无监督的情形。为了简化问题,暂不考虑强化学习,可以从监督,无监督和半监督学习入手。

数据匮乏问题可以分为两大类:一是数据难以获取导致数据缺失,另一类是已有的数据缺乏标签,无法形成高质量的数据。

“知易行难”,每一类问题又是求解的呢?

1.数据缺失

1.1 数据集再利用

数据集再利用是指将预先存在的数据集用于新用途。可能是添加数据的最明显的方法,例如,Imag.NET 最初制作并用于分类,但后来被重用于图像生成。

数据重用还包括对现有数据集的转换。例如,考虑修复,即根据周围信息恢复图像丢失部分的过程。修复是使用各种预先存在的数据集完成的。

当然,也有可能重新定义一个没有任何机器学习任务的数据集。

1.2 数据增强

数据增强是生成更多数据的常用方法,它通过对应用的修改人为地使训练集膨胀,最初的目标是防止过载。

数据增强通常采用邻域风险最小化(VRM)。在 VRM 中,需要人类知识来定义训练数据中每个样本周围的邻域,并从这个邻域分布中提取虚拟样本。在CV领域,常见的数据增强是几何变换,比如翻转、裁剪、缩放和旋转等,其思想分类器不变,而改变图像的位置和方向,类似地,光度变换还可以修改颜色通道。

特别是在小型数据集或数据集不平衡的时候,数据增强可以提高泛化能力,可以采用联合训练生成增强模型的方法。除了人类定义的转换,使用预先训练的生成性对抗网络(GAN)也可以来创建新的示例。

1.3 多模态学习

多模态学习试图丰富学习算法的输入,使学习者可以访问多个模态,例如,一个图像及其标题或图像的说明。多模态学习的主要缺点是要获得丰富的输入信息,并能够有效地将其集成到模型中。这种方法应该可以减少数据需求和提高一般性。

此外,当数据点的数量非常小时,特别是在学习过程中只有少数目标有特定标签示例的时候,多模态学习也可以被使用。例如,通过将图像与多种和更丰富的语义(类别标签,属性和自然语言描述)相结合,可以有更良好的表现。

1.4 规程学习

在规程学习中,使用预先确定的规程来访问示例,这些示例通常按难度的增加顺序排列。其动机来自人类自身教学方式,因为教师往往从教授更简单的概念开始,试图通过难度分数来增加训练实例。

在给定难度分数的情况下,该算法从一组简单的数据点开始,逐渐增加了在整个学习过程中训练样例的难度。这种进展使模型能够在一些简单的例子上学习广泛的概念,然后用更困难的例子来完善概念。这种方法可以提高性能,同时减少收敛所需的示例数量。其约束是对难度标签估计器的内在需求。对困难的标注可能非常苛刻,甚至可能比标准的标注还要苛刻。

1.5 基于论证的机器学习

基于论证的机器学习(ABML)是一种利用专家的局部知识来约束搜索空间的方法。简而言之,就是试图找到 if-then 规则来归纳过程中解释论证的例子。首先找到一条规则,将其添加到一组规则中,然后删除该规则所涵盖的所有训练数据点。重复这个过程,直到删除所有示例。ABML 的主要优势是使用专家知识来证明特定的示例,这往往比解释全局现象更容易。

ABML 可能不那么受欢迎,然而,如果专家局部知识是可用的,这将是一个集成部分先验知识的强大方法。此外,归纳假设对专家来说更有意义,因为它必须与输入论点一致。

1.6 多任务学习

多任务学习是一个突出的研究领域,其中试图训练多个不同(但相关)的任务同时进行,同时解决这些多重任务,利用它们之间的共性和差异。同时共同学习多个任务,以增强跨任务的相似性,更好地概括。

多任务学习在视觉和自然语言处理中都得到了成功的应用。在没有大型数据集的情况下,这种成功的关键因素是: 它是一种基于跨任务共性的隐式数据增强方法; 它能够解开跨任务和特征相关性; 鼓励分类器在稍微不同的任务上也表现良好。

以垃圾邮件过滤为例。通常,来自单个用户的数据不足以完成模型的训练。直观地说,不同的人有不同的特性分布来区分垃圾邮件和合法的电子邮件。但是,可以利用用户间的共性来解决这个问题。为了建立这些相似性,可以将每个用户作为一个独特但相关的分类任务,并在不同用户之间进行一个模型的训练。

多任务学习的实现可以分为两大类——隐藏层的硬参数共享和软参数共享,其中硬参数共享更为常用。在硬参数共享的类型中,隐藏层在所有任务之间共享,同时保留几个特定于某些任务的输出层。在软参数共享中,每个任务都有自己的模型和参数。然后,模型参数之间的距离被正则化,以增强交叉任务间的相似性。

1.7 迁移学习

迁移学习是一种被广泛使用的、非常有效的整合先前知识的方法,将在解决一个问题时获得的知识转移到另一个不同但相关的问题上。这个思想是使用在相关任务上受过训练的预先存在的模型。这些预先训练的模型通常用作使用手头任务的小数据集进行微调的初始化。因此,为了收敛,需要特定于任务的示例要少得多。

另一个有益的副作用是使用模型初始的宽领域知识,相比于初始化随机权重,模型以一些相关的全局知识来开始微调阶段。例如,在 ImageNet 上训练的模型已经被转移到医学成像任务中,使用在一个大型和多样化的图像数据集上训练的普遍视觉特征。尽管 ImageNet 中的图像和下游任务中的图像有所不同,但这些特性与许多视觉任务相关。因此,这种方法显著减少了所需标记特定任务的数据大小。

在自然语言处理中,通常使用的预训练模型 BERT 在各种任务中取得了最先进的结果。预训练模型通常是以自我监督的方式进行,其中不同的输入部分被掩盖,目标是预测被掩盖的部分。例如,给定一个句子,可以对它进行迭代,每次屏蔽一个不同的单词,以创建各种示例。

深度网络中的微调通常是通过添加一个未经训练的最后一层,并在特定任务的小数据集上训练新模型来完成的,或者是通过嵌入下一个最后一层的输出来完成。另一种可能的微调技术是以一个相对较小的学习率来训练整个网络; 也就是说,对已经合适的权重进行小的改变。微调也可以通过冻结预训练模型的前几层权重来完成。这种技术背后的动机是第一层捕获通用特性,这些特性可能也与新任务相关。因此,在微调期间会冻结它们应该保留与原始任务和新任务相关的捕获信息。

总之,迁移学习对于减少任务的特定数据数量和提高模型的性能都是一个强有力的工具。

1.8 元学习

元学习通过对多个学习过程的经验进行推广来改进学习算法。虽然元学习通常可以与 多任务学习系统有意义地结合,但它们的目标是不同的。多任务学习的目标是解决所有的训练任务,而元学习的目标是利用训练任务来解决新的小数据任务。因此,元学习是创建具有先验经验的模型,能够快速适应新的任务。具体来说,元学习会逐渐学习跨任务的元知识,在使用很少的任务特定信息时,就可以推广到一个新的任务。

元学习有三种常见的方法: 基于度量(类似于最近邻算法)、基于优化(元梯度优化)和基于模型(不假设数据分布)。

作为基于度量的方法,可以显式地从给定的支持集中学习,以最小化批处理的损失。结果是一个模型学会了将一个小的、带标签的支持集和一个未标签的示例进行映射,从而不用微调就能适应新类类型的需要。

在基于优化的研究领域,典型的方法是模型无关元学习(MAML) ,这是一个通用的优化算法,与任何基于梯度下降的模型兼容。它使用了一个元损失,用于诱导快速变化时,微调新的任务和基于任务总数的梯度。

在基于模型的研究领域,一般地,元学习模型依赖于“快速权重”,这些权重是网络的参数,与常规的基于梯度的权重变化相比,变化的时间尺度更小。这种 短期可塑性维持了一种动态变化的短期记忆,记忆了数据单元在网络中活动的近期历史,而不是标准的慢循环连接。该模型在多个任务中的性能优于许多其他的循环模型。

2. 标签缺失

另一类问题是数据非常丰富,但是几乎没有标签。这种情况在实践中很常见,因为未标记的数据通常比标记的数据更容易获得。

如何解决标签缺失的问题呢?

2.1 主动学习

当需要更多的标签但标注成本高昂的时候,一个直接的问题是如何有效地获取新的标签数据。主动学习就是一个很好的方法,可以通过反复查询信息源来标记新的数据点。这些查询可以包括来自数据集或新的前数据点中未标记的示例,通常是接近决策边界的示例。

有许多方法可以确定下一步应该查询训练集中的哪些数据点。通常的目标包括挑选最能改变当前模型的例子,当前模型最不确定的例子,或者类似于数据分布的不同例子。在存在少量数据的情况下,用典型的示例来展示模型是最有益的。

当生成新的示例时 ,仍然需要人工标注,虽然数据增强修改了输入,但是主动学习生成的示例没有标签。因此,生成算法应该保持新的数据点可解释,也就是说,确保它们有一个清晰的标签。例如,使用 GAN 来生成新的示例,或者从头开始并标记它们 ,或者通过修改现有的示例同时试图保留标记。重要的是,GAN 方法比基于转换的方法更具表现力,但是结果往往更难以解释。

2.2 半监督学习

半监督学习通过在学习过程中整合有标记和无标记的示例来减少标记要求。这是一个非常广泛而活跃的领域,但并不能说是涵盖了所有的领域

半监督学习使用大量未标记的数据估计分布 P (X = x) ,以减少带注释的数据需求。它对 P (X = x)和 P (Y = y | X = x)之间的关系作出强有力的假设,以减少所需要的标记例子的数量。通常,这些假设采取以下形式:

  • 平滑度: 相邻的点更有可能共享一个标签,即每两个相邻的样本 x,x’应该有相似的标签。
  • 聚类能力: 数据倾向于形成离散的聚类,其中属于同一聚类的点更有可能共享一个标签。因此,决策边界只能通过特征空间中的低密度区域。
  • 流形: 数据近似地位于一个比输入空间维数低得多的流形上。因此,当考虑输入空间的低维流形时,同一流形上的任何数据点都应该有相同的标签。

这三种假设都可以看作是对点间相似性的不同定义: 平滑性将其定义为输入空间中的邻近性,聚类能力假设高密度区域包含相似的数据点,以及位于同一低维流形上的点状态是相似的。

使用无监督预处理方法的一种常用方法是利用 P (X = x)上的知识在比原始维数更低的维数上提取有用的特征,从而降低学习复杂度。这包括使用自动编码器模型来学习表示,或者使用像 PCA 这样的降维方法。

2.3 数据编程

数据编程是编程创建训练集的范例。在数据编程中,用户将弱监督策略或领域启发式表示为标记函数(LF) ,即对数据子集进行标记的程序。LF 是不精确的,可能是相互矛盾的,会导致噪音标签的产生。数据编程通过明确地将标记过程 f: x → Y 表示为一个生成模型,目的是“去噪”生成训练集。

还是垃圾邮件检测例子,如果电子邮件包含 URL 或转账请求,潜在的 LF将返回“垃圾邮件”标签,如果来自联系人列表中的某人,则返回“非垃圾邮件”。这些函数本身的性能很差,然而,就像集成方法一样,数据编程的优势在于许多弱启发式的结合。

2.4 正则化期望

正则化期望使用了关于数据子组中不同标签比例的先验知识来创建有噪声的标签。关于标签在数据各个子组中比例的先验知识,使得正则化期望成为可能(从标签比例中学习)。

这个估计过程依赖于期望运算的一致收敛性,它使用子群体的经验方法来近似预期关于一个群体的分布,然后利用后者计算给定标签的期望值,最后利用标签分布上的条件平均值估计群的平均值。

2.5 远程监督

远程监督使用了已有数据库收集所需关系的示例,然后使用这些示例自动生成带标签的训练数据。

远程监督也是利用现有数据集的一种常用方法。在远程监督中,一个模型被学习给一个标记的训练集,就像在“标准”监控机器学习中一样,但是训练数据被弱标记,也就是说,是基于启发式或规则的自动标记。

例如,一个大型未标记的语义数据库为关系抽取提供远程监控,任何一个句子中包含一对与该语义数据库中关系已知的实体,都可能以某种方式表达这种关系。由于包含给定实体对的句子数量可能很多,有可能为标记过程提取和组合有噪声的特征。

2.6 附带监督

附带监督基于这样一种思想,即任务的信息线索可能存在于数据集中,而这些数据集并没有考虑到这个任务。例如,从名字中推断出性别。人们可以使用维基百科,它不是为这个任务而创建的。附带的信号是出现在维基百科页面第一段关于名字相同的人及其性别指标。这个信号与手头的任务相关,可以用于监督,减少对数据标注的需要。

附带监督是不假设知识的标注过程。附带信号可以是噪音,或只有弱相关的目标任务,仍然可以用来提供监督和促进学习。这里的监督概念与远程监控的概念不同: 在远程监控中,模型以标准的监督式学习方式学习,但训练集是基于启发式自动标记的。在附带监督下,一套完整的训练集可能永远不会存在。

例如,上下文相关的拼写和语法检查是一直依赖于附带监督的任务。在假设大多数编辑过的文本资源(书籍、报纸、维基百科)不包含许多拼写和语法错误的情况下,这些方法为单词、句读和现象生成上下文表示。然后,这些表示用于识别错误,并以与上下文相关的方式予以纠正。

3. 不是结束的结束语

机器学习的主导模式一般是使用众包来创建大型的、特定于任务的数据集。在机器学习驱动的数据架构中,经常面临的是数据匮乏的问题,而数据匮乏可以分为两类:数据缺失和标签缺失。

如何解决数据缺失的问题呢?

如何解决标签缺失的问题呢?

对于非机器学习驱动的软件系统而言,数据架构又面临哪些问题呢?



Tags:数据架构   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
利用Apache Kafka、Flink和Druid构建实时数据架构
译者 | 陈峻审校 | 重楼如今,对于使用批处理工作流程的数据团队而言,要满足业务的实时要求并非易事。从数据的交付、处理到分析,整个批处理工作流往往需要大量的等待,其中包括:等...【详细内容】
2023-12-11  Search: 数据架构  点击:(232)  评论:(0)  加入收藏
正在快速兴起的云数据架构
云数据架构的日益流行表明了一个主题:在未来几年,越来越多的企业将把他们的数据中心业务完全迁移到云平台上,因为内部部署数据中心设施具有一些固有的优势。数字时代的业务已经...【详细内容】
2023-05-04  Search: 数据架构  点击:(306)  评论:(0)  加入收藏
大数据架构设计与数据计算流程
大数据架构设计Hadoop有3个核心组件:分布式文件系统HDFS;分布式运算编程框架MapReduce;分布式资源调度平台YARN。HBase,Hadoop dataBase,基于HDFS的NoSQL数据库,面向列式的内存存...【详细内容】
2023-03-08  Search: 数据架构  点击:(182)  评论:(0)  加入收藏
数据架构中的数据问题
近来,chatGPT再一次激发了人们对通用人工智能的热情,甚至到了人人都在谈AIGC的地步。然而,大模型对数据丰富性的依赖更加严重,面向机器学习以及深度学习的数据架构又是怎样的呢...【详细内容】
2023-03-06  Search: 数据架构  点击:(126)  评论:(0)  加入收藏
实时数据架构与实践(用户画像篇)
知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对...【详细内容】
2022-01-19  Search: 数据架构  点击:(280)  评论:(0)  加入收藏
我们需要一次怎样的数据架构变革?
现有数据架构难以支撑现代化应用的实现。 随着云计算产业的快速崛起,带动着各行各业开始自己的基于云的业务创新和信息架构现代化,云计算的可靠性、灵活性、按需计费的高性价...【详细内容】
2021-12-22  Search: 数据架构  点击:(286)  评论:(0)  加入收藏
大数据架构师,带你HDFS读文件过程分析:读取文件的Block数据
前言我们可以从java.io.InputStream类中看到,抽象出一个read方法,用来读取已经打开的InputStream实例中的字节,每次调用read方法,会读取一个字节数据,该方法抽象定义,如下所示:publ...【详细内容】
2021-04-09  Search: 数据架构  点击:(388)  评论:(0)  加入收藏
大数据架构基础知识
介绍在使用数据获取业务价值的公司中,尽管您可能不会一直以数据科学技能为荣,但始终可以很好地管理数据基础架构。 每个人都希望将数据存储在可访问的位置,妥善清理并定期更新...【详细内容】
2020-10-22  Search: 数据架构  点击:(266)  评论:(0)  加入收藏
「大数据架构」Apache Flink和Apache Spark—比较指南
1. 目标在本教程中,我们将讨论Apache Spark和Apache Flink之间的比较。Apache spark和Apache Flink都是用于大规模批处理和流处理的开源平台,为分布式计算提供容错和数据分布...【详细内容】
2020-07-31  Search: 数据架构  点击:(307)  评论:(0)  加入收藏
如何成为一个合格的数据架构师?
早在 1980 年,未来学家阿尔文·托夫勒就在《第三次浪潮》中,将大数据比喻为“第三次浪潮的华彩乐章”。21 世纪以来,数据量进入每两年翻一番的增长期,越来越多人意识到了...【详细内容】
2020-06-26  Search: 数据架构  点击:(394)  评论:(0)  加入收藏
▌简易百科推荐
对于微服务架构监控应该遵守的原则
随着软件交付方式的变革,微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下,监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加,了解系统的...【详细内容】
2024-04-03  步步运维步步坑    Tags:架构   点击:(5)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27    InfoQ  Tags:架构模式   点击:(13)  评论:(0)  加入收藏
哈啰云原生架构落地实践
一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题,包括时机、容量、效率和成本问题,弹性伸缩是云原生容器化后的必然技术选择...【详细内容】
2024-03-27  哈啰技术  微信公众号  Tags:架构   点击:(10)  评论:(0)  加入收藏
DDD 与 CQRS 才是黄金组合
在日常工作中,你是否也遇到过下面几种情况: 使用一个已有接口进行业务开发,上线后出现严重的性能问题,被老板当众质疑:“你为什么不使用缓存接口,这个接口全部走数据库,这怎么能扛...【详细内容】
2024-03-27  dbaplus社群    Tags:DDD   点击:(12)  评论:(0)  加入收藏
高并发架构设计(三大利器:缓存、限流和降级)
软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展,用户量剧...【详细内容】
2024-03-13    阿里云开发者  Tags:高并发   点击:(6)  评论:(0)  加入收藏
如何判断架构设计的优劣?
架构设计的基本准则是非常重要的,它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式:简单即美(KISS):KISS原则的核心思想是保持简单。在设计系统...【详细内容】
2024-02-20  二进制跳动  微信公众号  Tags:架构设计   点击:(36)  评论:(0)  加入收藏
详解基于SpringBoot的WebSocket应用开发
在现代Web应用中,实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议,允许服务端与客户端之间建立持久性的连接,实现实时、双向的数据传输,极大地提升了用...【详细内容】
2024-01-30  ijunfu  今日头条  Tags:SpringBoot   点击:(17)  评论:(0)  加入收藏
PHP+Go 开发仿简书,实战高并发高可用微服务架构
来百度APP畅享高清图片//下栽のke:chaoxingit.com/2105/PHP和Go语言结合,可以开发出高效且稳定的仿简书应用。在实现高并发和高可用微服务架构时,我们可以采用一些关键技术。首...【详细内容】
2024-01-14  547蓝色星球    Tags:架构   点击:(115)  评论:(0)  加入收藏
GraalVM与Spring Boot 3.0:加速应用性能的完美融合
在2023年,SpringBoot3.0的发布标志着Spring框架对GraalVM的全面支持,这一支持是对Spring技术栈的重要补充。GraalVM是一个高性能的多语言虚拟机,它提供了Ahead-of-Time(AOT)编...【详细内容】
2024-01-11    王建立  Tags:Spring Boot   点击:(124)  评论:(0)  加入收藏
Spring Boot虚拟线程的性能还不如Webflux?
早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章,觉得还不错。内容较长,抓重点给大家介绍一下这篇文章的核心内容,方便大家快速阅读。测试场景作者采用了一个尽可...【详细内容】
2024-01-10  互联网架构小马哥    Tags:Spring Boot   点击:(116)  评论:(0)  加入收藏
站内最新
站内热门
站内头条