【IEEE】基于敏感信息主题的大数据情感分析方法

时间：2020-05-17 15:24:52 来源：作者：

摘要

随着Internet的迅猛发展，越来越多的用户通过Internet表达了自己的看法。因此，文本的大数据是在Internet上生成的。在大数据时代，通过自然语言处理技术挖掘互联网上海量文本所包含的情感倾向已成为舆论监督的重要方式。本文提出了一种基于敏感信息主题的大数据情感分析方法。该方法通过神经网络模型将主题语义信息集成到文本表示中。将注意力机制引入神经网络，并引入上下文感知向量来计算每个单词的权重。另外，为了使模型更具适应性，使用情感词典标注的方法来获得训练数据。实验结果表明，该模型可以有效提高情感分析结果的准确性。

核心内容

基于敏感信息主题的情感分析模型可以对大量文本敏感信息主题进行情感分析，以实现舆论监督和指导。本文提出了一种基于敏感信息主题的情感分析模型（SITSAM），它将敏感信息的主题描述整合到文本表示学习模型中。同时，引入了上下文感知注意机制来增加情感词对句子情感分类的贡献。

基于敏感信息主题的情感分析模型（SITSAM）如下图所示。

模型的输入包括两部分：左侧是句子中包含的单词{}，右侧是是敏感信息主题词。本文采用word2vec模型获得词向量。在传统递归神经网络模型的参数训练过程中，梯度逐渐减小直到消失，从而限制了序列数据的长度。LongShortTermMemory（LSTM）通过引入输入门i，输出门o，遗忘门f和记忆单元克服了梯度消失的问题。本文选择LSTM作为句子表征的基本训练模型。在传统的递归神经网络模型中，信息只能向前传播，导致时间t的状态只依赖于时间t之前的信息，为了使每个时刻都包含上下文信息，采用双向递归神经网络（BiRNN）和LSTM单元相结合的BiLSTM来获得句子的表示。双向长短期存储器网络的结构如下图所示。BiLSTM可以捕获文本信息更新，其正向传播在X1->Xn方向，反向传播在Xn->X1方向。Xi表示句子中的第i个单词。沿两个方向的隐藏层输出被连接为最终的隐藏层输出：

为了使词条和主题词在句子中映射到相同的向量空间，使用Siamese BiLSTM网络进行训练。Siamese BiLSTM网络的思想是在两个BiLSTM网络之间共享权重。为了将主题词的意义合并到每个词中，使用平均池来聚合主题词的所有隐藏层输出，以生成主题,计算如下：

然后，将与每个单词的输出连接起来，以获得最终的隐藏层每个单词的输出：

对于情感分析任务，情感词通常比非情感词更重要，这通常确定句子的情感倾向。为了更好地估计每个单词的重要性，引入了上下文感知向量来计算每个单词的权重：

其中，c是句子中每个单词的隐藏层状态的平均值。

注意权重通过以下计算获得：

其中，W表示注意层的权重向量，b表示偏移向量。最后，句子向量表示为：

“最后一层是softmax层，它将文本表示纳入softmax函数，以计算文本情感倾向的概率y。”

Abstract

With the rapid development of the Internet, more and more users expressed their views on the Internet. Therefore, the big data of texts are generated on the Internet. In the era of big data, mining the sentiment tendencies contained in massive texts on the Internet through natural language processing technology has become an important way of public opinion supervision. In this paper, the sensitive information topics-based sentiment analysis method for big data is proposed. This method integrates topic semantic information into text representation through a neural network model. The attention mechanism is introduced into the neural network, and context-aware vector is introduced to calculate the weight of each word. In addition, in order to make the model more adaptable, the method of sentiment dictionary tagging is used to obtain the training data. The experimental results show that the proposed model can effectively improve the accuracy of sentiment analysis results.

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(3)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游