您当前的位置:首页 > 互联网百科 > 大数据

京东AI研究院2020年学术顶会入选论文解析——基于关键词自动生成摘要

时间:2020-07-04 11:54:02  来源:  作者:

人工智能技术在电商领域,有着丰富的应用场景。应用场景是数据入口,数据通过技术得到提炼,反过来又作用于技术,二者相辅相成。

京东基于自然语言理解与知识图谱技术,开发了商品营销内容的AI智能写作服务。并将此项技术应用到了京东零售【发现好货】频道中。

通过AI智能写作创作的数十万商品营销图文素材,不仅填补了商品更新与达人写作内容更新之间的巨大缺口,也提升了内容频道的内容丰富性。

同时,京东AI智能写作生成的营销文案内容在曝光点击率、进商详转化率等方面其实都做到了优于人工创作的营销内容。在刚刚结束的京东618,AI智能写作产品已覆盖京东零售超过2000个商品品类,在图文内容营销上,智能写作产品撰写的导购素材相比于人工撰写内容点击转化率超过40%。接下来让我们通过解读京东AI研究院入选 AAAI 2020 的论文来一起来看看,AI是如何做到针对不同群体打造不同营销策略及不同风格的营销文案,从而提高营销转化率的。

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本,获得一段包含了其中最重要信息的简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘通过提取给定文本中已存在的关键词、短语或句子组成摘要;生成式自动文摘通过对给定文本建立抽象的语意表示,利用自然语言生成技术,生成摘要。

本文所介绍的是基于关键词指导的生成式句子摘要方法,该方法融合了抽取式自动文摘和生成式自动文摘,在Gigaword句子摘要数据集上与对比模型相比,取得了更好的性能。

京东AI研究院2020年学术顶会入选论文解析——基于关键词自动生成摘要

 

论文链接:http://box.jd.com/sharedInfo/B2234BB08E365EEC;

1、生成式句子摘要

生成式句子摘要(Abstractive Sentence Summarization)任务的输入是一个较长的句子,输出是该输入句子的简化短句。

我们注意到,输入句子中的一些重要词语(即关键词)为摘要的生成提供了指导线索。另一方面,当人们在为输入句子创作摘要时,也往往会先找出输入句子中的关键词,然后组织语言将这些关键词串接起来。最终,生成内容不仅会涵盖这些关键词,还会确保其流畅性和语法正确性。我们认为,相较于纯粹的抽取式自动文摘和生成式自动文摘,基于关键词指导的生成式自动文摘更接近于人们创作摘要时的习惯。

京东AI研究院2020年学术顶会入选论文解析——基于关键词自动生成摘要

 

我们举一个简单的句子摘要的例子。如图1所示,我们可以大致将输入句子和参考摘要的重叠的词(停用词除外)作为关键词,这些重叠的词语覆盖了输入句子的要点。例如,我们通过关键词“世界各国领导人”“关闭”和“切尔诺贝利”,可以获取输入句子的主旨信息,即“世界各国领导人呼吁关闭切尔诺贝利”,这与实际的参考摘要 “世界各国领导人敦促支持切尔诺贝利核电站关闭计划”是相吻合的。这种现象在句子摘要任务中很常见:在Gigaword句子摘要数据集上,参考摘要中的词语超过半数会出现在输入句子中。

2、模型概述

句子摘要任务的输入为一个较长的句子,输出是一个简短的文本摘要。我们的动机是,输入文本中的关键词可以为自动文摘系统提供重要的指导信息。首先,我们将输入文本和参考摘要之间重叠的词(停用词除外)作为Ground-Truth关键词,通过多任务学习的方式,共享同一个编码器对输入文本进行编码,训练关键词提取模型和摘要生成模型,其中关键词提取模型是基于编码器隐层状态的序列标注模型,摘要生成模型是基于关键词指导的端到端模型。关键词提取模型和摘要生成模型均训练收敛后,我们利用训练好的关键词提取模型对训练集中的文本抽取关键词,利用抽取到的关键词对摘要生成模型进行微调。测试时,我们先利用关键词提取模型对测试集中的文本抽取关键词,最终利用抽取到的关键词和原始测试文本生成摘要。

(1)多任务学习

文本摘要任务和关键词提取任务在某种意义上非常相似,都是为了提取输入文本中的关键信息。不同点在于其输出的形式:文本摘要任务输出的是一段完整的文本,而关键词提取任务输出的是关键词的集合。我们认为这两个任务均需要编码器能够识别出输入文本中的重要信息的能力。因此,我们利用多任务学习框架,共享这两个任务编码器,提升编码器的性能。

(2)基于关键词指导的摘要生成模型

我们受Zhou等人工作[1]的启发,提出了一种基于关键词指导的选择性编码。具体来说,由于关键词含有较为重要的信息,通过关键词的指导,我们构建一个选择门网络,其对输入文本的隐层语义信息进行二次编码,构造出一个新的隐层。基于这个新的隐层进行后续的解码。

我们的解码器基于Pointer-Generator网络[2],即融合了复制机制的端到端模型。对于Generator模块,我们提出直连、门融合和层次化融合的方式对原始输入文本和关键词的上下文信息进行融合;对于Pointer模块,我们的模型可以选择性地将原始输入和关键词中的文本复制到输出摘要中。

3、实验与分析

(1)数据集

在本次实验中,我们选择在Gigaword数据集上进行实验,该数据集包含约380万个训练句子摘要对。我们使用了8000对作为验证集,2000对作为测试集。

(2)实验结果

表1显示了我们提出的模型比没有关键词指导的模型表现更好。我们测试了不同的选择性编码机制,分别是输入文本的自选择,关键词选择和互选择,实验结果显示互选择的效果最佳;对于Generator模块,我们发现层次化融合的方式要优于其他两种融合方式;我们的双向Pointer模块比原始的仅能从输入文本中复制的模型表现更好。

京东AI研究院2020年学术顶会入选论文解析——基于关键词自动生成摘要

 

4、总结

本文致力于生成式句子摘要的任务,即如何将一个长句子转换成一个简短的摘要。我们提出的模型可以利用关键词作为指导,生成更加优质的摘要,获得了比对比模型更好的效果。

1)通过采用了多任务学习框架来提取关键词和生成摘要;

2)通过基于关键字的选择性编码策略,在编码过程中获取重要的信息;

3)通过双重注意力机制,动态地融合了原始输入句子和关键词的信息;

4)通过双重复制机制,将原始输入句子和关键词中的单词复制到输出摘要中。

在标准句子摘要数据集上,我们验证了关键词对句子摘要任务的有效性。

注释:

[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.



Tags:京东AI研究院   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
人工智能技术在电商领域,有着丰富的应用场景。应用场景是数据入口,数据通过技术得到提炼,反过来又作用于技术,二者相辅相成。京东基于自然语言理解与知识图谱技术,开发了商品营销...【详细内容】
2020-07-04  Tags: 京东AI研究院  点击:(122)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(2)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条