您当前的位置:首页 > 生活百科 > 知识

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

时间:2020-07-28 11:17:00  来源:  作者:

 

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

出品 | CSDN(ID:CSDNnews)

日前,今年的机器学习国际顶级会议ICML(International Conference on machine Learning)公布论文接收情况。据统计,ICML 2020共提交4990篇论文,投稿数量再创新高,而最终接收论文1088篇,接收率21.8%。与往年相比,接收率逐年走低。

由蚂蚁集团算法工程师胡斌斌、高级算法专家张志强、资深算法专家周俊和北京邮电大学教授石川联合撰写的《KGNN:Distributed Framework for Graph Neural Knowledge Representation》顺利入选ICML2020 workshop(Bridge Between Perception and Reasoning: Graph Neural Networks & Beyond),该workshop由知名学者唐建、蚂蚁集团研究员宋乐、斯坦福大学终身教授Jure Leskovec联合举办,并邀请了人工智能奠基者之一的Yoshua Bengio进行了keynote报告,该workshop旨在将不同领域(如深度学习、逻辑/符号推理、统计关系学习和图算法等)的研究人员聚集起来讨论系统和系统智能之间的潜在接口和集成,探索理论基础、模型和算法方面的新进展,沉淀新基准数据集和有影响力的应用。以下为该论文的解读。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

前言

知识表示学习主要用于将知识图(KG)融入各种在线服务中以提升各个应用的性能。现有的知识表示学习方法虽然在性能上有了很大的提高,但它们忽略了高阶结构和丰富的属性信息,导致在语义丰富的知识图谱上性能不佳。另外,这些方法不能进行归纳式的预测,也不能适用于大型工业图。

为了解决这些问题,我们开发了一个新的框架KGNN在分布式学习系统中来充分利用知识数据进行表示学习。KGNN配置了基于GNN的编码器和知识感知的解码器,目的是以细粒度的方式将高阶结构和属性信息结合在一起,并保留知识图谱中的关系模式。我们在三个数据集上进行了链接预测和三元组的分类实验,验证了该框架的有效性和可扩展性。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

简介

知识图谱(KG)通常以三元组⟨头实体,关系,尾实体⟩的形式表示实体及其丰富的异构关系。例如在图1(a)中,三元组⟨Bob, work_in, Apple⟩表示关系work_in连接了两个实体: Bob和Apple。知识图谱因其丰富的结构化信息,在信息检索、知识问答和推荐系统等诸多研究领域引起了广泛关注。为了灵活地利用知识图谱,通过知识表示学习来进行图谱补全、对齐和推理已经成为一个新兴的方向。

知识表示学习旨在将实体和关系映射到一个低维空间,并同时保留原始网络的特定信息。这些方法可以大致分为平移距离式模型(如TransE、TransR等)和语义匹配式模型(如DistMult、ConvE等),分别利用基于距离和基于相似性的评分函数进行知识表示学习。

尽管这些方法在一定程度上提高了性能,但它们仍然存在一些局限性。首先,他们独立处理每个三元组,并且丰富的属性节点和边通常被忽视,导致在语意丰富的知识图谱上无法取到满意的性能。其次,他们是天生的直推式(Transductive)模型,即无法对没出现在训练集中的实体进行预测。最后,这些方法无法处理包含数以百万计的实体和关系的工业级的大规模知识图谱。

为了解决这些问题,本文旨在建立一个可扩展的分布式知识图表示框架,以灵活地提取丰富的知识,供下游应用使用。该框架需要满足以下三个关键特性:(1)语义丰富: 高阶结构和属性信息能够有效地保存原始图的属性。因此,我们的目标是把这些信息融入知识图表示,全面捕捉知识图谱中的丰富语义。(2)归纳式(Inductive):目前知识图谱通常是不完整的,在真实的应用中,新实体将每天出现。这要求我们对未出现在训练集中的实体进行动态预测。

(3)可扩展性:由于现实工业场景中的知识图谱是非常大规模的,需要在分布式学习系统上实现可扩展的知识图表示框架。为了综合上述主要思想,我们提出了基于图神经网络的编码器和知识感知解码器的分布式图神经知识表示框架KGNN。在图神经网络的帮助下,KGNN在归纳式的、端到端的框架中同时捕获属性信息和高阶结构。

显然,KGNN是一个灵活的框架,可以配备任意的GNN编码器,本文引入了一种基于注意力机制的GNN来定位细粒度语义中重要的相关关系或结构。为了对真实的知识图谱上进行有效的模型训练和推理,我们在分布式学习系统上实现了KGNN,并揭示了其实现细节。我们在三个真实数据集上进行了链接预测和三元组分类任务的实验,验证了所提出的KGNN框架的有效性和可扩展性。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

图1 KGNN示意图

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

KGNN模型

如图1(b)所示,KGNN模型主要有两部分构成,基于GNN的编码器和知识感知的解码器。

基于GNN的编码器。我们采用图神经网络将结构知识和属性编码到实体表示中。具体来说,GNN通过聚合来自其邻居的信息,递归地更新节点的表示。随后,k次更新后的节点的最终表示会捕获k跳邻居内部的结构信息以及节点属性。形式化上来讲,我们可以通过聚合函数f(A)和更新函数f(U)来利用节点v的邻居集合Nv计算出节点v的第k + 1次表示:

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

对于细粒度建模,我们引入了一个基于关注的GNN来衡量每个关系的各种潜在偏好。根据上述公式中实体表示的更新原则,我们首先将聚合函数f(A)表示为:

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

受跳跃知识(JumpingKnowledge)网络思想的启发,我们采用自适应深度函数灵活地多跳邻居,以更好地实现结构感知表示。这里应用LSTM实现f(U)进行表示更新。因此,我们可以得到实体h的k + 1表示为:

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

其中ehk表示节点h的聚合信息,通过f(A)计算而来。

知识感知的解码器。知识图谱中链路预测的关键是利用观测到的三元组来推断对称、反对称、合成等关系模式。为了自适应地保留知识图谱不同的关系模式,KGNN采用知识感知的评分函数作为解码器。以TransH为例, 我们将三元组⟨h, r, t⟩通过K跳更新后的评分函数表示为s(eKh, er,eKt),呃,投影。然后通过基于间隔的负采样目标函数端到端训练KGNN:

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

分布式实现

现在我们探索KGNN的分布式实现,它为大规模知识图表示提供了一个完整的解决方案。如图1(c)所示,分布式KGNN由三部分组成:

图的存储系统。在分布式架构下,将整个知识图以及相应的属性信息存储在节点上。在有效的数据压缩技术的帮助下,它能够服务于大型工业图。

采样器。主要包含了知识表示的负采样器和子图采样器。负采样器在一个有效三元组中随机替换头实体或尾实体,以生存相应的负三元组。然后,子图采样器将批量随机收集每个实体的k跳邻居集。值得注意的是,我们将子图提供给KGNN,而不是完整的图,这有助于减少时间和内存开销。

训练器。它由多个worker和参数服务器组成,由协调器控制。为了有效地更新参数,每个worker都从参数服务器提取参数,并在训练期间独立地更新它们。在一个特定的worker中,KGNN自然遵循这样的工作流程:(1)预处理子图并解析模型配置。(2)利用之前介绍的编码器和解码器,基于子图生成实体和关系的表示。(3)优化一个特定的损失来指导模型的学习。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

实验

我们在WN18,FB15K和Alipay三个数据集上进行了实验,具体在链路预测和三元组分类两个任务上验证了有效性。实验数据集如下所示。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

链路预测和三元组分类的结果如下所示:

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

另外,我们做了不同跳邻居对模型性能的影响,如下所示,实验结果验证了高阶信息的有效性,但过高的邻居信息会导致over-smooth的问题,导致性能有所下降。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

最后我们做了KGNN的性能试验,如下所示。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

如图所示,在WN18K和FB15K这两个数据集上。我们将worker数从2增加到16,可以明显地加速KGNN的训练。与此同时,随着worker数量的增加,预测性能几乎没有损失。

蚂蚁金服推出分布式的图神经知识表示框架,性能和可扩展性俱佳

结语

在本文中, 我们介绍了分布式的知识图表示框架KGNN。它包含基于GNN的编码器和知识感知的解码器,可以同时利用图谱的高阶结构信息和属性信息,并能保存图谱中的关系模式。我们在分布式计算平台上实现了KGNN,并用大量的试验验证了它的有效性和可扩展性。在未来的工作中,我们将致力于解决图神经网络在利用高阶邻居时遇到的over-smooth问题,以及如何对动态知识图谱进行有效的表达。



Tags:蚂蚁金服   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
本文由微信公众号苏宁金融研究院(ID:SIF-2015)原创,作者为苏宁金融研究院副院长薛洪言日前,市场中传来蚂蚁集团启动IPO上市的消息,2000亿美元的网传估值,在A股金融类上市公司中仅...【详细内容】
2020-08-05  Tags: 蚂蚁金服  点击:(86)  评论:(0)  加入收藏
X6 脱胎于蚂蚁实际的业务场景,在此基础上,我们完善了图编辑场景的常用扩展,如小地图、网格系统、对齐线、框选、redo/undo等,内置了图编辑场景的常规交互和设计,如群组、链接桩、...【详细内容】
2020-08-03  Tags: 蚂蚁金服  点击:(1437)  评论:(0)  加入收藏
出品 | CSDN(ID:CSDNnews)日前,今年的机器学习国际顶级会议ICML(International Conference on Machine Learning)公布论文接收情况。据统计,ICML 2020共提交4990篇论文,投稿数量再...【详细内容】
2020-07-28  Tags: 蚂蚁金服  点击:(130)  评论:(0)  加入收藏
《中国经济周刊》记者 吕江涛 谢玮2019年7月22日—2020年7月22日,科创板开市一周年。一年间,IPO多达140家,且都来自六大高科技行业;10倍股频频出现,高价股占了A股总数的近30...【详细内容】
2020-07-28  Tags: 蚂蚁金服  点击:(87)  评论:(0)  加入收藏
蚂蚁金服7月20日宣布,启动在上海证券交易所科创板和香港联合交易所有限公司主板寻求同步发行上市的计划。一时间,铺天盖地的热点是“迎面而来”。可能大家对蚂蚁金服不太熟悉,...【详细内容】
2020-07-21  Tags: 蚂蚁金服  点击:(131)  评论:(0)  加入收藏
金融界网站7月21日讯 今日A股高开,盘初一小时沪指横盘震荡,深成指、创业板指逐步走高,盘中三大股指集体走弱翻绿,午前市场出现小幅反弹。午后两市延续反弹态势,创业板指涨幅扩大...【详细内容】
2020-07-21  Tags: 蚂蚁金服  点击:(33)  评论:(0)  加入收藏
消息称,蚂蚁集团将在今年内于香港完成IPO,目标估值为2000亿美元,折合人民币为1.4万亿元。这也意味着蚂蚁集团一旦上市将会直接晋升成为中国互联网公司的第三巨头,而在美股中概股...【详细内容】
2020-07-21  Tags: 蚂蚁金服  点击:(78)  评论:(0)  加入收藏
经过N次“被上市”和“不予置评”之后,万亿级别的巨头蚂蚁集团终于在7月20日盘后官宣了上市计划,拟在上交所科创板和港交所主板寻求同步发行上市。...【详细内容】
2020-07-21  Tags: 蚂蚁金服  点击:(110)  评论:(0)  加入收藏
蚂蚁金服斥资5.1亿元入股一家财税领域的初创公司浙江诺诺网络科技有限公司,意图在该领域扶植一支能够有力对抗腾讯京东系的力量。然而,这家公司竟然无牌“裸奔”,违规销售此前...【详细内容】
2020-07-15  Tags: 蚂蚁金服  点击:(99)  评论:(0)  加入收藏
「创新集」是创业邦推出的“大企业创新”领域栏目,通过解读知名大企业创新的实践案例,全方位展现大企业创新的现状、趋势和方法论,助力大企业搭建健康的创新生态体系,快速实现...【详细内容】
2020-06-17  Tags: 蚂蚁金服  点击:(98)  评论:(0)  加入收藏
▌简易百科推荐
自1991年第一款锂离子商业化以来,锂离子电池以高比能量的特点迅速占领了便携式电子产品市场,例如我们生活当中手机聚合物电池、无人飞机的高倍率电池、新国标电动车、新能源汽...【详细内容】
2021-12-27  全航工作室    Tags:锂电池   点击:(0)  评论:(0)  加入收藏
一张身份证里藏着惊人的信息。本文将教你如何从身份证号码前6位数看是哪里人。1949年,地级市的数目为54个,地区的数目为170个;1982年,地级市的数目为112个,地区的数目为170个,在此...【详细内容】
2021-12-27  聪颖书签U    Tags:身份证号   点击:(3)  评论:(0)  加入收藏
在每年的公历12月25日,是基督教徒纪念耶稣诞生的日子,我们称为圣诞节。圣诞节这个名称是基督弥撒的缩写,弥撒是基督教会的一种礼拜仪式。耶诞节是一个宗教节,我们把它当做耶稣的...【详细内容】
2021-12-24  长松爱剪辑    Tags:圣诞节   点击:(190)  评论:(0)  加入收藏
2022年1月,新的一年的开端,你的发展会如何?能为你开启一年的好运吗?下面跟着我一起来看看12星座2022年1月发展吧。白羊座优势: 魅力得以展现,爱情顺势而来。弱势: 情绪起伏大,...【详细内容】
2021-12-24  孟依婷啊    Tags:星座   点击:(16)  评论:(0)  加入收藏
DN/De/D/Φ/PN/SDR的区别 D:一般是指管道的内径,管道内壁内圆的直径。 DN:是指公称直径,又称平均外径,既不是管道的外径也不是内径,而是外径和内径的平均值。这是管道及其附件...【详细内容】
2021-12-24  水电小知识    Tags:管材   点击:(8)  评论:(0)  加入收藏
今天是公历2021年12月19日,农历十一月十六,星期日。后天,斗指子,太阳黄经达270°,就到了今年“二十四节气”之第22个节气——冬至节气!冬至,作为中国二十四节气的一个...【详细内容】
2021-12-20  冀豫耕耘    Tags:冬至   点击:(3)  评论:(0)  加入收藏
锂离子电池自从进入市场以来,以其寿命长、比容量大、无记忆效应等优点,获得了广泛的应用。锂离子电池低温使用存在容量低、衰减严重、循环倍率性能差、析锂现象明显、脱嵌锂不...【详细内容】
2021-12-20  全国能源信息平台    Tags:锂电池   点击:(5)  评论:(0)  加入收藏
引子感谢绿地,18年买的房子现在外墙还没做完,今年是奶爸的第四个租房的年头了,9月份刚刚换了一间大一点的房子。大房子住着倒是舒服些,然而房东配的床却完全不走心,这不前两天大...【详细内容】
2021-12-16  晋升奶爸的垃圾佬    Tags:手电钻   点击:(6)  评论:(0)  加入收藏
讲到电力负荷的计算,想必大部分从业多年的电气工程师都陌生了,但是对于一个初学者而言就可能一知半解了。那么什么是电力负荷呢?其实电力负荷是一个相对模糊的概念,它笼统地说是...【详细内容】
2021-12-15  电气设计狄老师    Tags:电力负荷   点击:(5)  评论:(0)  加入收藏
什么是过电流?什么是过负荷?想必很多初学电气的朋友都一知半解。其实过负荷、过载、过电流都包含有相同的意思,都会导致电器温度升高。其中过负荷、过载一般超过额定值不多,允许...【详细内容】
2021-12-15  电气知识课堂    Tags:电流   点击:(7)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条