基于BiLSTM+Self-Attention的多性格微博情感分类
Research on Multi-personality Microblog Sentiment Classification Based on BiLSTM + Self-Attention
Corresponding author: LIU Kejian,liukejian@gmail.com
-
摘要: 微博作为最受欢迎的社交网络平台之一,是人们表达观点和情感的重要途径。性格影响人的情感表达方式。针对现有微博情感分析很少考虑性格因素这一问题,文章提出一种基于BiLSTM+Self-Attention并结合性格因素的微博情感分类模型(P-BiLSTM-SA)。该模型首先根据“大五”人格理论,基于用户性格将微博文本进行性格分组,然后结合BiLSTM模型和自注意力机制训练出各性格分组的基本分类器,最后采用集成学习方法融合基本分类器预测结果,输出最终的情感标签。为了验证自注意力和性格对情感分类的有效性,文章进行了2组对比实验。第1组实验结果表明,在准确率、精确率、召回率和F1这4个评价指标的综合平均表现上,P-BiLSTM-SA与P-LSTM、P-BiLSTM以及BiLSTM-SA相比,分别提高了0.036、0.017、0.025,说明自注意力机制能有效学习到文本关键信息;第2组实验结果表明,在准确率、精确率、召回率和F1这4个评价指标的综合平均表现上,P-BiLSTM-SA与未结合性格因素的BiLSTM-SA相比,提高了0.012,说明性格因素对情感分类具有一定的帮助。Abstract: As one of the most popular social network platforms, microblog is an important way for people to express their views and feelings. Psychological research shows that personality influences the way people express their feelings. In view of the problem that personality is rarely considered in sentiment classification of microblogs, this paper proposes a microblog sentiment classification model, P-BiLSTM-SA, based on BiLSTM + self-attention and combining personality factors. According to "Big Five" theory, the model will first group the microblog texts into different personality groups based on users’ personality. Then, the BiLSTM model and the self-attention mechanism are combined to train the basic classifiers of each group. Finally, the ensemble learning method is used to fuse the basic classifiers and output the final affective labels. In order to verify the effectiveness of self-attention and personality in sentiment classification, two groups of comparative experiments were conducted. The results of the first group of experiments show that,based on the comprehensive average performance of the four evaluation indicators of accuracy, precision, recall rate and F1, the P-BiLSTM-SA proposed in this paper improved 0.036, 0.017 and 0.025, compared with the model P-LSTM, P-BiLSTM and BiLSTM-SA. It shows that the self-attention mechanism can effectively learn the key information of the text. The results of the second group of experiments show that compared with the BiLSTM-SA without personality factors, the accuracy, precision, recall and F1 of the proposed model P-BiLSTM-SA is improved by 0.012 on average, indicating that the combination of personality factors is useful for sentiment classification.
-
Keywords:
- sentiment classification /
- personality /
- microblog /
- self-attention /
- BiLSTM
-
近年来,微博已成为最受欢迎的社交网络平台之一。人们可以通过微博随时、随地分享和交流信息,表达情感和发表观点,实现信息的即时分享、传播互动。截至2020年10月,微博月活跃用户已达5.23亿。微博所携带的大量信息流尤其是公众情感,对舆论起着重要作用。
情感分类是情感分析的研究主题之一,根据情感极性对文本进行分类。一般地,情感极性分为3类:积极、中性和消极。现有的情感分类技术主要分为:基于情感词典的分类方法、基于传统机器学习的分类方法和基于深度学习的分类方法。基于词典的方法主要利用情感词典和语言规则进行情感分类。Turney等[1]计算评论中的情感极性均值,并将其作为评论整体的情感极性。同时,有研究[2-4]表明,否定词、程度副词等对于判断整个句子的情感极性有相当大的影响。王银等[5]在大连理工大学的情感词汇本体库基础上,构建了程度副词词典、否定词词典、网络用语词典、表情符号词典以及关系连词词典5个词典,通过权值计算微博文本情感值。张公让等[6]通过建立程度副词词典、否定词词典和情感词典,对各家快递服务的客户评价实现了情感预测。虽然基于词典的方法可以获得很好的分类效果,但是该方法严重依赖于情感词典,灵活性和适应较差。
基于传统机器学习的方法通常是从语料库中提取有效的文本特征,实现情感分类。Zhang等[7]将条件随机场(CRF)运用到文章句子的语境分析中,通过分析句子的语境,有效提取情感特征,实现情感分类。Gao等[8]调查了用户容忍度和商品知名度对情感分类的影响,提出了一种近似解码算法(approached decoding algorithm)对商品评论进行情感分类。冯成刚等[9]比较了常用的3种机器学习算法(SVM、NB和K最邻近算法)、3种特征选择方法(信息增益、互信息、加权似然对数)以及特征权重方法(布尔权重、词频权重,词频-逆词频)对中文微博情感分类的影响。Haque等[10]利用线性SVM、梯度下降和随机森林等机器学习方法对亚马逊3个种类的商品评论进行情感分类,其中SVM在音乐领域的分类效果最好。基于传统机器学习的情感分析方法分类效果趋于更准确,但它依赖于带有标记的语料库的质量。
基于深度学习的方法主要是利用词向量对文本中的词语进行表示,进而构建句子级或篇章级的语义表示,通过采用深度学习模型学习文本中的情感特征,实现情感分类。目前大多数情感分类主要采用基于深度学习的方法。胡荣磊等[11]将长短记忆网络(LSTM)与注意力机制结合,对酒店评论文本进行了情感分析。Xu等[12]在LSTM的基础之上,引入了一种缓存机制来帮助循环单元更有效地保存情感信息。贵向泉等[13]提出将时序卷积网络(TCN)与BiLSTM+Attention模型相融合的文本情感分类方法,利用TCN的因果卷积和扩张卷积结构获取更高层次的文本序列特征,并通过双向长短期记忆网络进一步提取全局特征,最后,引入自注意力机制(self-attention)帮助模型优化特征向量,提高情感分类的准确度。
由于微博有字数限制,文本偏口语化、生活化,使用网络流行语和表情符,因此,对于实现微博文本情感分类来说是一个挑战。学者们提出了一些方法来提高情感分类的准确率。金志刚等[14]结合表情符和文本情感特征,通过CNN捕获局部特征,并将其作为情感分类器的输入,训练出微博情感分类器。李勇敢等[15]从中文微博观点句识别、情感倾向性分类和情感要素抽取3个方面实现了中文微博情感自动分析。针对现有大多数微博文本情感分析未结合深度学习模型和情感符号的情况,张仰森等[16]提出了一种双重注意力模型的方法,构建了一个包含情感词、否定词、程度副词、网络词和微博表情符的微博情感符号库,通过将注意力模型和情感符号相结合,有效增强了捕获微博情感语义的能力。Barbosa等[17]在普通文本特征的基础上,提取了微博文本特有的一些特征,包括转发、回复、hash-tag、URL、标点符号、表情符号以及以大写字母开头的单词数目等,采用有监督的方法实现Twitter文本的情感分类。
值得注意的是,目前大多数情感分类研究忽略了用户性格这一因素。心理学研究表明,性格会影响人们的表达方式。不同性格的人在表达情感时,表达方式会有所不同[18]。心理学领域的“大五”理论,定义了5种人格特征,分别是开放性(openness)、责任性(conscientiousness)、外向性(extroversion)、宜人性(agreeableness)、神经质(neuroticism)。外向型人格的人在表达时使用的词语通常与社交活动、家人相关。拥有高宜人人格的人更具有同情心、乐于助人,与人相处融洽。责任型人格的人通常比较可靠,有责任心,自律。刘亦真[19]基于微博平台,分析研究了不同人格倾向的微博用户在情绪表达上的特点。Verhoeven等[20]在短文数据集上训练性格分类模型,将其输出作为元特征来预测Facebook用户的性格特征。张岩峰等[21]利用微博用户的文本及行为等特征,使用提升决策树、支持向量机以及贝叶斯逻辑递归3种机器学习方法进行实验,得出通过微博的文本特征和非文本特征都能分析出用户人格特质的结论。
在以上情感分类研究中,大多数在提取文本情感特征时,并没有考虑到用户性格特征,但也有研究者结合了用户性格特征。袁婷婷[22]通过建立性格词典并利用LTSM模型对不同性格的文本进行情感预测,但忽略了上下文语境信息也会影响情感分析。贾莉等[23]在结合用户性格信息的基础上利用BiLSTM模型,在微博文本情感预测上虽然有所提升,但未充分利用到文本的局部信息。吴小华等[24]提出了BiLSTM结合自注意力机制的模型来进行情感预测,但没有考虑到性格对语句表达有所影响这一因素。为此,本文在结合用户性格信息的基础上,提出了一种利用双向长短期记忆网络和自注意力机制来实现微博情感分类的方法。该方法通过提取不同性格的用户情感特征,分别训练出各自的基本分类器,再采用集成学习策略进行结果融合,进而实现情感分类。
1. 相关研究工作
1.1 大五人格模型
大五人格模型是研究者运用最广的一种模型。大五人格模型将人格划分为5个维度:开放型、外向型、宜人型、责任型和神经质型。表1列出了不同人格的主要表现。
表 1 大五人格特征人格特质 特征 高特质 低特质 开放型 富有想象、审美、创造 务实、顺从、惯例 外向型 热情、活泼、善长社交、 含蓄、委婉、不善长社交 宜人型 信任、直率、乐于助人、
慷慨大方怀疑、冷漠无情、孤立 责任型 自律、坚持、成就、谨慎、
克制懒散、粗心大意、意志力薄弱 神经质型 冷静、淡定、安全感 脆弱、压抑、不安 在对微博文本进行情感分析时,笔者发现不同性格有不同的表达特点,例如:高外向型人格在表达时通常使用“聚会” “团队” “老铁们”等与家人、朋友以及社交相关的词语;低外向型人格则会使用“宅” “安静”等词语。为了能够增强这些词语对情感表达的贡献率,更好地提取不同性格的深层次情感特征,本文在BiLSTM的基础上采用了自注意力机制对微博中词语的重要程度进行权重分配。
为了有效提取不同性格的情感特征,需要对微博用户的性格进行预测和分类,因此,本文提出了一种基于规则的性格分类方法来对微博用户的性格进行预测和分类,根据性格分类结果,将微博文本进行分组,并分别提取不同性格分组的文本情感特征。该方法能够充分利用用户性格信息有效提取情感特征。
1.2 双向长短期记忆网络(BiLSTM)
循环神经网络(RNN)是传统前馈神经网络的延伸。然而,标准的RNN却有梯度消失和梯度爆炸问题。为了解决这2个问题,Hochreiter等[25]提出了长短期记忆网络(LSTM),但是,LSTM只能获取正向的信息,无法获取逆向的信息。对于文本来说,理解前后文信息对其更加有帮助。BiLSTM由一个正向的LSTM和一个逆向的LTSM所组成,能够同时获取上下文信息[26]。BiLSTM结构图如图1所示。
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
1.3 自注意力机制(self-attention)
自注意力机制[27],就是将注意力集中在需要重点关注的目标上,分配更多的权重,获取目标的更多细节信息,忽略不重要的信息。自注意力机制是对自己本身的词语进行Attention计算,不用考虑直接距离长短,能够充分考虑句子之间、不同词语之间的语义及语法联系,捕获句子的内部结构。其计算公式为
$ {\rm{Att(}}{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}{\rm{) = Softmax}}\left(\frac{{f({\boldsymbol{Q}},{{\boldsymbol{K}}^{\rm{T}}})}}{{\sqrt {{d_k}} }}\right){\boldsymbol{V}} $
(1) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
2. 结合BiLSTM和自注意力机制的微博情感分类模型(P-BiLSTM-SA)
基于性格特征,结合双向长短记忆网络和自注意力机制,本文提出了一种BiLSTM和自注意力机制相结合的微博情感分类模型(P-BiLSTM-SA模型),总体结构如图2所示。首先,将用户性格相似的文本归为一类,因为相同性格的人,其表达方式具有相似性;接着,对文本进行预处理并利用word2vec训练出词向量,形成词向量矩阵;然后,将各组词向量矩阵分别作为BiLSTM的输入,经过BiLSTM层输出后进入Self-Attention层,对特征进行权重赋值,提取深层次的情感特征,从而训练出5个基于不同性格的情感分类器和一个通用情感分类器;最后,根据集成学习融合分类器预测结果,输出最终情感分类结果。图2中:E、A、C分别表示外向型、宜人型、责任型;H和L表示性格的高、低特质,例如HE为高外向型,LE为低外向型;All表示通用文本,即数据集中所有微博用户的文本。
2.1 基于微博用户性格的文本分组
本文采取基于规则的方法来对用户性格进行预测。在进行性格预测时,由于开放型和神经质型较难区分[28-29],所以本文只考虑了其余3种人格:外向型、宜人型和责任型。
2.1.1 特征表示
微博用户发表的微博内容包括了图片、视频、地理位置信息等。同时,用户在微博中的交互行为[30]会在一定程度上反映出该用户真实性格。为此,本文结合了文本信息和用户行为特征综合预测用户性格。表2示出了用户微博信息中的具体特征表示。
表 2 特征表示特征表示 特征含义 Photo_Comment_Num 文本中同时包含图片和评论的数量 Video_Num 文本中包含视频的数量 Location_Num 文本中包含地理位置信息的数量 Mention_Num 文本中提及他人的数量 Like_Num 文本获得点赞的数量 Comment_Num 文本获得评论的数量 Retweeted_Num 微博被转发的数量 Follower_Num 用户粉丝数量 2.1.2 性格分类
熵权法是一种确定多因素综合评价问题中各因素权重系数的有效方法。本文利用该方法计算影响性格判定的指标权重,从而计算出影响性格判定的最终值。具体步骤如下。
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
${W_i} = \frac{{1 - {E_i}}}{{k - \sum {{E_i}} }}(i = 1,2, \cdots \text{,}k)$
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
3)计算影响性格判定的最终值,并根据表3进行性格判定。表中:C(u)、J(u)、Y(u)分别表示微博用户u的微博内容丰富程度、交互主动性以及影响力;k1,k2,k3,k4,k5,k6 为判定式的阈值。
表 3 判定规则判定式 判定含义 IF C(u) >= k1, then E=HE
IF C(u) < k2, then E=LE如果微博用户u的微博内容大于等于k1,则该用户为高外向型人格
如果微博用户u的微博内容小于k2,则该用户为低外向型人格IF J(u) >=k3, then A=HA
IF J(u) < k4, then A=LA如果微博用户u的交互主动性大于等于k3,则该用户为高宜人型人格
如果微博用户u的交互主动性小于k4,则该用户为低宜人型人格IF Y(u) >= k5, then C=HC 如果微博用户u的影响力大于等于k5,则该用户为高责任型人格 IF Y(u) < k6, then C=LC 如果微博用户u的影响力小于k6,则该用户为低责任型人格 a.外向型人格。
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$C(u) = ({Y_{\rm{v}}},{Y_{{\rm{pc}}}},{Y_{\rm{l}}},{Y_{\rm{m}}}) \cdot ({W_{\rm{v}}},{W_{{\rm{pc}}}},{W_{\rm{l}}},{W_{\rm{m}}})$
(2) b.责任型人格。
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$Y(u) = ({Y_{{\rm{li}}}},{Y_{\rm{c}}},{Y_{{\rm{re}}}}) \cdot ({W_{{\rm{li}}}},{W_{\rm{c}}},{W_{{\rm{re}}}})$
(3) c.宜人型人格。
宜人性型人格的人性格开朗,助人为乐、谦逊、值得信赖,充满正义感,拥有较多的粉丝,由于比较重视自己的形象,所发布的微博通常充满积极性和正能量。被转发微博的数量越多,该用户的交互主动性[30]就越高,同样的,粉丝数量对交互主动性也有影响。微博用户的交互主动性计算公式为
$J(u) = ({Y_{\rm{f}}},{Y_{{\rm{re}}}}) \cdot ({W_{\rm{f}}},{W_{{\rm{re}}}})$
(4) 各阈值的确定依据了微博用户分别在外向型、责任型和宜人型3类性格计算中得到的各类性格最终值的平均值和标准差。为了平衡数据,取标准差的算术平方根。如果其值高于平均值与算术平方根之和,则该用户为高特质;如果其值低于平均值与算术平方根之差,则该用户为低特质。
2.2 结合BiLSTM和self-attention的情感分类器构建
在本文中,基于用户性格以及通用文本的情感分类器皆是由BiLSTM+self-attention机制训练得到,网络结构如图3所示。
2.2.1 BiLSTM层
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
2.2.2 self-attention层
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
${\boldsymbol{C}} = \sum\limits_{i = 1}^N {{\partial _i}{{\boldsymbol{h}}_i}} $
(5) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
${\partial _i} = {\rm{soft}}\max \left(\frac{{{{\boldsymbol{h}}_i}{{\boldsymbol{h}}^{\rm{T}}}}}{{\sqrt {{d_k}} }}\right)$
(6) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
2.2.3 情感分类
模型的最后一层为全连接网络层,采用Softmax函数作为激活函数,计算微博文本各个情感标签的预测概率,其计算公式为
$p = {\rm{soft}}\max ({\boldsymbol{W}}{\boldsymbol{C}} + {\boldsymbol{b}})$
(7) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
2.3 情感分类器分类结果融合
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
3. 实验与分析
3.1 实验数据
本文实验所用的数据来自于从新浪微博爬取的228个微博用户数据,包括用户的微博内容和作者基本信息。数据集中,微博文本共10万1 649条。删除转发微博,并进行清洗过后,采用半自动化的方式对文本进行情感极性的标记,其中,积极微博有2万5 138条,消极微博有2万3 783条。本文按照7∶2∶1的比例将微博文本分为训练集、验证集和测试集。
同一位微博用户可能同时具有多种性格,因此会属于不同的性格集合。根据所爬取微博用户的基本信息,分别计算微博用户在外向型、宜人型和责任型的相应数值,在此基础上分别得到3类性格类型的均值和标准差,并取标准差的算术平方根。根据2.1.2节的方法计算得到:外向型的平均值为152.46,标准差的算数平方根为16.22;宜人型的平均值为680.01,标准差的算数平方根为45.27;责任型的平均值为1284.55,标准差的算数平方根为80.16。因此,阈值k1,k2,k3,k4,k5,k6 分别为168.69,136.24,725.28,634.74,1364.71,1204.39。其中,在爬取的微博数据集中,低责任型性格的微博文本数量很少,所以在本文中不予考虑。基于微博用户性格的各文本分组的数据分布详情如表4所示。
表 4 数据集分布性格类型 HE LE HA LA HC 文本条数 26 984 14 596 10 786 31 519 10 558 3.2 模型实验参数设置
在实验中,词向量为200维,优化函数为Adam,损失函数为多元交叉熵。各模型具体参数如表5和表6所示。
表 5 P-BiLSTM和P-LSTM参数设置模型 参数 数值 P-BiLSTM Bach_size 128 Hidden_size 128 Dropout 0.5 lr 0.01 Epochs 300 P-LSTM Bach_size 100 Hidden_size 75 Dropout 0.5 lr 0.01 Epochs 300 表 6 BiLSTM-SA和P-BiLSTM-SA参数设置模型 参数 数值 BiLSTM-SA Bach_size 128 Hidden_size 128 Att_size 100 Dropout 0.5 lr 0.01 Epochs 300 P-BiLSTM-SA Bach_size 128 Hidden_size 128 Att_size 100 Dropout 0.5 lr 0.01 Epochs 300 3.3 实验指标评价
为了验证本文提出模型的有效性,本文采用以下4个指标进行评价。
1)准确率(accuracy):被模型正确预测的微博文本数量占所有微博文本数量的比例。
2)召回率(recall):被正确预测为积极(消极)的微博文本数量占实际为积极(消极)的微博文本数量的比例。
3)精确率(precision):被正确预测为积极(消极)的微博文本数量占所有被预测为积极(消极)的微博文本数量的比例。
4)F1值(F1 score):由精确率和召回率的加权处理得到。F 1值越大,模型效果越好。
${{F_1}}= \displaystyle\frac{{2 \times {\rm{precision}} \times {\rm{recall}}}}{{{\rm{precision}} + {\rm{recall}}}} $
3.4 微博情感分类实验
3.4.1 模型对比实验
在本文模型中,采用了自注意力机制来学习不同性格微博用户的文本表达特征。在采用相同数据集的基础上,将本文提出的模型P-BiLSTM-SA与P-LSTM[22]、P-BiLSTM[23]以及未融入性格因素的模型BiLSTM-SA[24]进行了对比。其对比实验结果如表7所示。
表 7 模型实验对比结果模型 准确率 召回
率精确率 F1值 BiLSTM-SA 0.721 0.723 0.732 0.718 P-LSTM 0.708 0.711 0.725 0.704 P-BiLSTM 0.729 0.731 0.739 0.728 P-BiLSTM-SA 0.746 0.748 0.756 0.745 1)与BiLSTM-SA相比,P-BiLSTM-SA的情感分类效果更好,说明融入性格因素对于微博情感分类具有一定的帮助。
2)模型BiLSTM-SA和模型P-BiLSTM,在4种指标上的表现相接近,说明在模型训练过程中,自注意力机制能获取到更深层次的情感信息,而且根据性格对文本分类也有利于模型提取不同性格的特征。2种方法都对微博文本的情感分类有效。
3)与P-BiLSTM相比,P-BiLSTM-SA在准确率、精确率、召回率和F1上平均提升了0.017,说明利用自注意力机制关注文本的局部关键信息对情感分类有一定的帮助。
总之,对比其他3个模型,本文模型在准确率、召回率、精确率和F1值上的效果更优。说明事先根据用户的性格对微博文本进行分类,使得模型中的自注意力机制能够有针对性地学习到不同性格的深层次情感特征,从而有利于提升情感分类效果。同时,通过集成学习方法融合各分类器输出,减少了泛化误差。
3.4.2 实例实验结果对比
性格影响人的表达方式。为了验证性格对情感分类的有效性,本文选取了另外爬取的11位微博用户的微博文本(约1 400条),基于P-BiLSTM-SA模型和BiLSTM-SA模型再次进行了测试,测试结果如表8所示,P-BiLSTM-SA模型在4个评价指标上的表现明显优于BiLTM-SA,再次证明了本文所提出模型的有效性。为了更加形象地对比这2个模型的预测效果,表9给出了一些实例的具体实验结果对比。可以看出:HC性格的用户通常具有责任心、认真且自律;HE性格的用户充满热情,活泼;HA性格的用户通常直率、大方;“累” “痛苦”往往是LE性格的用户在表达消极情绪时所具有的特征;文本(3)和文本(5)虽然都在阐述某人能力不错,但由于不同性格的表达方式有所差异,所以2个文本表达的情感完全不同;文本(6)和文本(7)都在表达积极的情感,高特质用户倾向于积极向上的表达方式,而低特质用户的表达方式则是恰好相反,说明发表这2条文本的微博用户虽然都是宜人型和外向型人格,表达的情感极性也相同,但因为这2个用户在两类性格方面的高低特质不同,各自表达情感的方式也就完全不同。本文提出的模型P-BiLSTM-SA能在训练中更好地学习到这些深层次情感信息,从而提升了微博的情感分类效果。
表 8 P-BiLSTM-SA与BiLSTM-SA实验结果对比模型 准确率 召回
率精确率 F1值 BiLSTM-SA 0.712 0.714 0.717 0.712 P-BiLSTM-SA 0.725 0.726 0.728 0.724 表 9 模型P-BiLSTM-SA和模型BiLSTM-SA部分实例预测结果对比序号 用户
性格微博文本 BiLSTM-SA P-BiLSTM-SA 真实
标签(1) HE、HC、HA 自律,让运动更纯粹。明天马拉松,我怎么觉得心情比自己想象得还要激动 positive positive positive (2) LE、HC 其实说不上具体因为啥,明明吃穿不愁,工作也有,但就是觉得累,无解的那种累 negative negative negative (3) HE、HC 终于解决了,我可太牛了,牛哭了 negative positive positive (4) LE 累,太痛苦了,为了享受那些瞬间的开心不得不长时间忍受痛苦,淦 positive negative negative (5) LA 牛批,您老牛批了,呵呵。 positive negative negative (6) LA、LE 一个人活得好好的,钱能赚,饿不死,想去哪就去哪 negative positive positive (7) HA、HE 心中有数(树)就不是荒山 negative positive positive 4. 结论
本文基于不同性格的微博用户在表达情感时各不相同的特点,提出了一种结合性格因素的深度学习模型P-BiLSTM-SA。该方法既考虑到BiLSTM能学习文本前后文语境信息,兼顾了全文整体特征的优势,又利用self-attention机制表示不同特征的重要性,捕获了深层次的情感特征。最后通过实验验证了本文方法的有效性。
在互联网上,表情符号、颜文字等也是人们表达情感的途径之一,未来可考虑将这些因素纳入情感分析之中。同时,许多用户在微博上采用多语言混合的方式表达情感,比如:“我今天very happy”,未来可考虑对此类文本进行语码转换以提升情感分类效果。
-
表 1 大五人格特征
人格特质 特征 高特质 低特质 开放型 富有想象、审美、创造 务实、顺从、惯例 外向型 热情、活泼、善长社交、 含蓄、委婉、不善长社交 宜人型 信任、直率、乐于助人、
慷慨大方怀疑、冷漠无情、孤立 责任型 自律、坚持、成就、谨慎、
克制懒散、粗心大意、意志力薄弱 神经质型 冷静、淡定、安全感 脆弱、压抑、不安 表 2 特征表示
特征表示 特征含义 Photo_Comment_Num 文本中同时包含图片和评论的数量 Video_Num 文本中包含视频的数量 Location_Num 文本中包含地理位置信息的数量 Mention_Num 文本中提及他人的数量 Like_Num 文本获得点赞的数量 Comment_Num 文本获得评论的数量 Retweeted_Num 微博被转发的数量 Follower_Num 用户粉丝数量 表 3 判定规则
判定式 判定含义 IF C(u) >= k1, then E=HE
IF C(u) < k2, then E=LE如果微博用户u的微博内容大于等于k1,则该用户为高外向型人格
如果微博用户u的微博内容小于k2,则该用户为低外向型人格IF J(u) >=k3, then A=HA
IF J(u) < k4, then A=LA如果微博用户u的交互主动性大于等于k3,则该用户为高宜人型人格
如果微博用户u的交互主动性小于k4,则该用户为低宜人型人格IF Y(u) >= k5, then C=HC 如果微博用户u的影响力大于等于k5,则该用户为高责任型人格 IF Y(u) < k6, then C=LC 如果微博用户u的影响力小于k6,则该用户为低责任型人格 表 4 数据集分布
性格类型 HE LE HA LA HC 文本条数 26 984 14 596 10 786 31 519 10 558 表 5 P-BiLSTM和P-LSTM参数设置
模型 参数 数值 P-BiLSTM Bach_size 128 Hidden_size 128 Dropout 0.5 lr 0.01 Epochs 300 P-LSTM Bach_size 100 Hidden_size 75 Dropout 0.5 lr 0.01 Epochs 300 表 6 BiLSTM-SA和P-BiLSTM-SA参数设置
模型 参数 数值 BiLSTM-SA Bach_size 128 Hidden_size 128 Att_size 100 Dropout 0.5 lr 0.01 Epochs 300 P-BiLSTM-SA Bach_size 128 Hidden_size 128 Att_size 100 Dropout 0.5 lr 0.01 Epochs 300 表 7 模型实验对比结果
模型 准确率 召回
率精确率 F1值 BiLSTM-SA 0.721 0.723 0.732 0.718 P-LSTM 0.708 0.711 0.725 0.704 P-BiLSTM 0.729 0.731 0.739 0.728 P-BiLSTM-SA 0.746 0.748 0.756 0.745 表 8 P-BiLSTM-SA与BiLSTM-SA实验结果对比
模型 准确率 召回
率精确率 F1值 BiLSTM-SA 0.712 0.714 0.717 0.712 P-BiLSTM-SA 0.725 0.726 0.728 0.724 表 9 模型P-BiLSTM-SA和模型BiLSTM-SA部分实例预测结果对比
序号 用户
性格微博文本 BiLSTM-SA P-BiLSTM-SA 真实
标签(1) HE、HC、HA 自律,让运动更纯粹。明天马拉松,我怎么觉得心情比自己想象得还要激动 positive positive positive (2) LE、HC 其实说不上具体因为啥,明明吃穿不愁,工作也有,但就是觉得累,无解的那种累 negative negative negative (3) HE、HC 终于解决了,我可太牛了,牛哭了 negative positive positive (4) LE 累,太痛苦了,为了享受那些瞬间的开心不得不长时间忍受痛苦,淦 positive negative negative (5) LA 牛批,您老牛批了,呵呵。 positive negative negative (6) LA、LE 一个人活得好好的,钱能赚,饿不死,想去哪就去哪 negative positive positive (7) HA、HE 心中有数(树)就不是荒山 negative positive positive -
[1] TURNEY P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).Philadelphia: [s.n.], 2002: 417 − 424.
[2] 寇鑫. 文本情感分析中修饰词对情感倾向判别的影响[C]//澳门大学人文学院、中国中文信息协会、澳门语言学会. 第十五届汉语词汇语义学国际研讨会论文集. [出版地不详]: 中国澳门大学人文学院、中国中文信息协会、中国澳门语言学会、福建省语言学会, 2014. [3] 刘伟. 基于数据挖掘的BBS用户评价系统研究[D]. 长春: 长春理工大学, 2011. [4] 钟鹏. 修饰结构在文本多标签情感强度预测的应用研究[D]. 福州: 福州大学, 2018. [5] 王银, 张顺香. 微博话题中的情感分析研究[J]. 阜阳师范学院学报(自然科学版), 2017, 34(2): 50 − 56. [6] 张公让, 鲍超, 王晓玉, 等. 基于评论数据的文本语义挖掘与情感分析[J]. 情报科学, 2021, 39(5): 53 − 61. [7] ZHANG K, XIE Y, CHENG Y, et al. Sentiment identification by incorporating syntax, semantics and context information[C]//Proceedingsof the 35th International ACMSIGIR Conference on Research and Development in Information Retrieval.Portland OR(US): [s. n.], 2012: 1143 − 1144.
[8] GAO W, LI S, XUE Y, et al. Semi-supervised sentiment classification with self-training on feature subspaces[C]//Workshop on Chinese Lexical Semantics. [S. l.]: Springer, 2014: 231 − 239.
[9] 冯成刚, 田大钢. 基于机器学习的微博情感分类研究[J]. 软件导刊, 2018, 17(6): 58 − 61+66. [10] HAQUE T U, SABER N N, SHAH F M. Sentiment analysis on large scale Amazon product reviews[C]//2018 IEEE international conference on innovative research and development (ICIRD). [S. l.]: IEEE, 2018: 1 − 6.
[11] 胡荣磊, 芮璐, 齐筱, 等. 基于循环神经网络和注意力模型的文本情感分析[J]. 计算机应用研究, 2019, 36(11): 3282 − 3285. [12] XU J C, CHEN D L, QIU X P, et al. Cached long short-term memory neural networks for document-level sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin, Texas: [s.n.]: 1660 − 1669.
[13] 贵向泉, 高祯, 李立. 融合TCN与BiLSTM+Attention模型的疫情期间文本情感分析[J]. 西安理工大学学报, 2021, 37(1): 113 − 121. [14] 金志刚, 胡博宏, 张瑞. 融合情感特征的深度学习微博情感分析[J]. 南开大学学报(自然科学版), 2020, 53(5): 77 − 81. [15] 李勇敢, 周学广, 孙艳, 等. 中文微博情感分析研究与实现[J]. 软件学报, 2017, 28(12): 3183 − 3205. [16] 张仰森, 郑佳, 黄改娟, 等. 基于双重注意力模型的微博情感分析方法[J]. 清华大学学报(自然科学版), 2018, 58(2): 122 − 130. [17] BARBOSAL L, FENG J. Robust sentiment detection on Twitter from biased and noisy data[C]//Proceedings of the International Conference on Computational Linguistics. Beijing: [s. n.], 2010: 36 − 44.
[18] STEMMLER G, WACKER J. Personality, emotion, and individual differences in physiological responses[J]. Biological Psychology, 2010, 84(3): 541 − 551. doi: 10.1016/j.biopsycho.2009.09.012
[19] 刘真亦. 不同人格倾向微博用户的情绪表达分析[D]. 杭州: 浙江大学, 2019. [20] VERHOEVEN B, DAELEMANS W, DE SMEDT T. Ensemble methods for personality recognition[C]//Proceedings of the International AAAI Conference on Web and Social Media. Orlando, Florida, USA: ACM, 2013:7 − 10.
[21] 张岩峰, 陈长松, 杨涛, 等. 微博用户的个性分类分析[J]. 计算机工程与科学, 2015, 37(2): 402 − 409. doi: 10.3969/j.issn.1007-130X.2015.02.033 [22] 袁婷婷. 微博文本情感分析研究[D]. 乌鲁木齐: 新疆大学, 2019. [23] 贾莉, 江涛, 马宁, 等. 一种融合性格线索的微博情感分类[J]. 云南大学学报(自然科学版), 2020, 42(5): 870 − 876. [24] 吴小华, 陈莉, 魏甜甜, 等. 基于Self-Attention和Bi-LSTM的中文短文本情感分析[J]. 中文信息学报, 2019, 33(6): 100 − 107. doi: 10.3969/j.issn.1003-0077.2019.06.015 [25] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735 − 1780. doi: 10.1162/neco.1997.9.8.1735
[26] Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673 − 2681.
[27] BAHDANAU D, CHO K, BENGIO Y. Neural Machine Translation by Jointly Learning to Align and Translate[C]//ICLR 2015.[S.l.]:arXiv e-prints, 2014.
[28] LIN Q, HAN L, RAMSAY J, et al. You are what you tweet: Personality expression and perception on Twitter[J]. Journal of Research in Personality, 2012, 46(6): 710 − 718. doi: 10.1016/j.jrp.2012.08.008
[29] GOLBECK J, ROBLES C, EDMONDSON M, et al. Predicting personality from twitter[C]//2011 IEEE third international conference on privacy, security, risk and trust and 2011 IEEE third international conference on social computing. [S. l.]: IEEE, 2011: 149 − 156.
[30] 刘平, 崔宗艺, 周炜翔, 等. 基于行为信息的微博用户性格预测研究[J]. 北京信息科技大学学报(自然科学版), 2019(3): 32 − 38. [31] 齐超, 陈鸿昶, 于洪涛. 基于用户行为综合分析的微博用户影响力评价方法[J]. 计算机应用研究, 2014, 31(7): 2004 − 2007. doi: 10.3969/j.issn.1001-3695.2014.07.019 -
期刊类型引用(4)
1. 张颖. 基于Self-Attention与Bi-LSTM的大学生情感倾向研究. 软件导刊. 2024(12): 53-57 . 百度学术
2. 金书丞,王嘉梅. 基于双向编码器的卷积失活神经网络模型的文本情感分析. 应用科技. 2024(06): 32-37 . 百度学术
3. 周湘贞,李帅,隋栋. 基于深度学习和注意力机制的微博情感分析. 南京师大学报(自然科学版). 2023(02): 115-121 . 百度学术
4. 张忠林,袁晨予,陈丽萍,吴奕霖. 融合BERT与句法依存的性格识别方法研究. 计算机工程与应用. 2023(18): 98-104 . 百度学术
其他类型引用(6)