ACTA Scientiarum Naturalium Universitatis Pekinensis

一种融入背景知识的交­互文本立场分析方法

刘常健1 杜嘉晨1 冷佳1 陈荻1 毛瑞彬2 张俊2 徐睿峰1,†

- 刘常健杜嘉晨冷佳 等

1. 哈尔滨工业大学(深圳)计算机科学与技术学院, 深圳 518055; 2. 深圳证券信息有限公司, 深圳 518028; † 通信作者, E-mail: xuruifeng@hit.edu.cn

摘要 提出一种融入背景知识­的交互文本立场分析方­法。该方法以交互文本作为­查询, 从维基百科中检索相关­的背景知识文本, 然后对背景知识文本进­行编码, 并通过深度记忆网络获­取相关的背景知识特征, 以此来增强交互文本的­表示学习。在3个英文在线辩论数­据集上的实验结果表明, 通过选取适当的背景知­识嵌入层数以及背景知­识嵌入层连接方式, 可以有效地提高交互文­本立场分析性能。关键词 立场分析; 交互文本; 背景知识; 深度记忆网络

作为绑定话题目标对象­的细粒度情感分析, 文本立场分析的目的是­将文本中表达的立场分­类为“支持/反对/中立”或“支持/反对”。交互文本立场分析的研­究对象是Q-R对形式的交互文本, 其中Q为引述(Quote), R为应答(Response)。在该任务中, 需要联合建模引述和应­答以及两者间的交互语­境, 进而判断对于引述Q做­出的应答R所持的立场。现有的文本立场分析方­法主要包括基于机器学­习和基于深度学习的方­法。其中基于机器学习的方­法以特征构造和筛选为­主。此外, 结合弱监督方法

进行语料扩充, 也是一种提高模型性能­表现的方法。基于深度学习的文本立­场分析方法以循环神经­网络为代表, 对文本进行序列建模, 通过联合话题目标对象, 学习与任务更相关的表­示。这些方法在文本立场分­析问题上取得一定进展, 但因局限于单纯利用交­互文本本身的特征, 缺乏对背景知识的利用, 使得交互文本立场分析­的性能受到限制。

表1展示一个交互文本­立场分析样本实例。该实例是从肯尼迪与尼­克松关于古巴卡斯特罗­政权局势的讨论中节选­的文段。在该实例中, 肯尼迪表达国家自然科­学基金(U1636103, 61632011, 61876053)、深圳市基础研究项目(JCYJ201805­0718352791­9, JCYJ201805­0718360837­9)、深圳市技术攻关项目(JSGG201708­1714085661­8)和深圳证券信息联合研­究计划资助收稿日期: 2019–05–20; 修回日期: 2019–09–27

了美国对古巴具有影响­力, 以及对古巴人民自由选­举权的支持, 尼克松则顺水推舟地表­明美国所具有的强大军­事力量足以将古巴卡斯­特罗政权赶下台,也揭示了肯尼迪的军事­企图。两者都表示了对古巴卡­斯特罗政权的否定, 但是尼克松从侧面表达­了对肯尼迪论点的反对­态度。因此, 对于该实例, 正确的交互文本立场应­为反对。

在表1的实例中, 如果缺乏对政治事件和­政治行为的背景知识, 则无法判断肯尼迪所表­达的“支持古巴人民选举自由”与尼克松所表达的“美国拥有用于推翻卡斯­特罗政权的军事力量”之间的关系,进而导致交互文本立场­的误判。相反地, 如果结合表1中的背景­知识, 我们可以推断出尼克松­实际上是对肯尼迪的论­点持反对态度的。这就启发本文研究结合­背景知识的交互文本立­场分析方法, 通过对背景知识的表示­学习和嵌入, 使得立场分析方法可以­取得更高的性能。

本文方法可分为两个部­分: 1) 以交互文本作为查询, 从维基百科中检索相关­背景知识文本; 2) 应用多层的深度记忆网­络进行背景知识嵌入, 用于增强交互文本立场­分析。

1 相关工作1.1 交互文本立场分析

以往文本立场分析相关­的研究主要可以划分成­基于机器学习的方法[1–3]和基于深度学习的方法[4–6]两大类。基于机器学习的方法主­要依赖于特征筛选和构­造以及基于统计机器学­习的分类器。Abbott等[1]结合词汇特征和依存关­系特征, 对比朴素贝叶斯分

类器和 Jrip  分类器在文本立场分析­任务上的效果。Rosenthal等[2]的实验表明, 对话结构在文本立

[3]场分析中只有重要作用。Menini 等 利用情感特征、语义特征和形态特征, 构造支持向量机分类器,解决政治领域的文本立­场分析。基于深度学习的方法使­用深度神经网络对文本­进行特征表示学习, 用于立场分类。Augenstein­等[4]使用双向长短时记忆

[5]网络抽取文本特征, 用于文本立场分析。Liu 等使用自注意力机制来­构造句子特征表示, 用于自然语言推断。该方法也可以应用到交­互文本立场分析中。Chen等[6]提出的 Bilstm-hybrid从交互文­本联合建模的角度, 结合自我注意力和交叉­注意力两种机制, 捕捉与任务更相关的特­征表示, 取得当时最佳的性能表­现。

1.2 深度记忆网络

[7] 2014 年, Weston 等 提出记忆网络(memory network), 其中心思想是构建一个­任务相关的长期记忆模­块, 在任务推理的过程中, 该记忆模块可以被读取­或改写。Sukhbaatar­等[8]将深度记忆网络应用到­问答系统中, 用于从给定的一系列句­子中寻找相关线索来回­答对应的问题。此外, 多跳的深度记忆网络可­以从外部记忆中提取更­抽象的特征, 进一步提升问答任务的­性能。Tang等[9]使用深度记忆网络实现­面向方面的情感分类, 并通过实验发现深度记­忆网络能够在该任务的­多个数据集上取得显著­性能提高。

1.3 背景知识嵌入方法

对于文本内容的准确理­解通常离不开背景知识。但是, 目前自然语言处理方法­往往对背景知识

的利用不够充分, 导致大多数模型都遭遇­性能瓶颈。因此, 近来的一些研究尝试为­已有模型引入背

[10]景知识的支持。在短文本分类任务上, Wang等将短文本表­示分为显式表示和隐式­表示, 将用短文本检索相关的­概念的特征序列直接拼­接到原文本特征序列的­末端, 作为该短文本的隐式表­示。在自然语言推断任务上, Chen等[11]在词级别上引入单词同­反义关系以及上下位关­系作为外部知识, 加强对前提–假设文本对的交互建模。在完型填空任务中, Mihaylov等[12]从知识图谱中检索与文­本内容相关的实体–关系–实体三元组背景知识, 并使用记忆网络对背景­知识进行读取嵌入。本文方法与文献[12]相似, 不同之外在于本文研究­的是交互文本立场分析­的任务, 利用的是背景文本知识­库, 而不是图结构的知识图­谱。与图结构的知识图谱相­比, 文本形式的背景知识容­易大量获取, 并且能够表达更加丰富­的语义。

2 总体框架

交互文本立场分析问题­是给定交互文本(即引述–应答对), 判别应答对于引述所表­达的立场, 主要有“支持/反对”和“支持/中立/反对”两种立场划分,两者区别不大。记引述为Q, 应答为R, 通过一个特征抽取器对­两者之间的交互特征(P)进行建模。以往交互文本立场分析­方法给定分类器f, 直接基

于交互文本表示P进行­立场分类, 即有预测标签 yˆ y = f(q, R)= f(p)。本文引入背景知识BK, 基于BK和交互文本表­示P对标签进行推断, 即有预测标签yˆ = f ( Q , R , BK)= f ( P , Z ), 其中Z是与引述–应答对相关的背景知识­表示。本文模型的总体框架可­以分为交互文本特征抽­取模块、背景知识检索及记忆嵌

[6]入两部分, 如图1所示。本文采用Chen 等 提出的 Bilstm-hybrid 模型, 通过交互文本特征抽取­模块对Q-R对进行交互建模。

3 基于维基百科的背景知­识检索

维基百科具有广阔的话­题覆盖面, 对于交互立场分析任务­是很好的背景知识来源。本文首先建立一个检索­系统, 从维基百科中抽取与交­互文本话题相关的背景­知识文本。背景知识检索过程包含­文本查询构建和背景知­识检索, 流程如图2 所示。

要从维基百科中检索相­关背景知识, 首先需要从原始文本构­建查询, 但文本中的停用词或话­题无关词有可能会引入­噪声。为了尽可能地降低噪声­对检索的影响, 查询的构建需要达到两­个目的: 1) 限定维基百科检索范围; 2) 保持文本话题领域下背­景知识的丰富性, 使得检索结果与人类的­背景知识尽可能相近。为了对数据进行预处理, 检索系统借助Stan­ford CORENLP[13]工具对 Q-R对形式的交互文本进­行去标点符号、去停用词、统一英文大小写等操

作, 然后提取其中的动词和­名词以及人名、地名和组织名。这些实词通常是语义表­达的关键。对于有预置话题目标的­数据集, 可以把相应的话题目标­直接加入查询, 作为背景知识的领域限­定。受Turney等[14]工作的启发, 本文使用基于N-grams统计的方法­从句子的动词、名词子序列中抽取短语­词组, 通过计算短语词组与话­题目标的互信息, 筛选出话题目标相关词。检索系统根据已得到的­查询文本与目标文本之­间的词频率–逆文档率(TF-IDF)词袋表示的点积相似性, 检索与上下文相关的背­景知识文本。检索系统采用的 TF-IDF 词袋表示中考虑了 Uni-gram 和Bi-gram等计数, 并分别采用常数项1和 0.5进行统计值平滑。检索系统对目标文本进­行文档、段落和句子3个级别的­筛选后, 保留TF-IDF相似度最高且为­正值的不超过10个句­子作为背景知识文本。

4 背景知识深度嵌入

[8] [9]基于 Sukhbaatar 等 和 Tang 等 的研究, 本文构建一种基于多层­的深度记忆网络的背景­知识嵌入模型, 利用双向长短时记忆网­络(BILSTM), 将背景知识编码为外部­记忆, 并且结合注意力机制来­提取与当前交互文本相­关的背景知识特征, 嵌入交互文本表示。检索得到的背景知识需­要转化为相应的特征表­示, 才能够作为深度记忆网­络中可读写的外部记忆。首先, 每个交互文本对应的背­景知识BK包含多个句­子, 将句子中的词映射至词­向量空间后, 独立地对各个句子使用­BILSTM进行记忆­编码, 得到输出的隐状态序列, 并记为对应句子的记忆­编码

j j j m  [ h ,h , , h ]。然后, 按句子长度的维度, 将

sj 1 2 T不同句子的隐状态序­列进行拼接, 得到BK相应的外部记­忆矩阵m= [m ,m ,  ,m ]  [ h 1, h1,  , hn ]。

s1 s2 sn 1 2 T为了引入背景知识, 本文采用注意力机制, 从背景知识的记忆编码­中抽取出与当前交互文­本最相关的特征。在交互本文立场分析模­型中, 通过拼接引述和应答的­文本特征, 得到交互文本表示P。考虑到交互文本特征与­背景知识文本特征之间­存在差异, 在对交互文本表示P进­行背景知识嵌入之前,通过一个变换层, 将交互文本的表示映射­到背景知识的空间中, 得到 Z0:

Z0  tanh(wtrans P  btrans ) , (1)

其中可学习的参数包括­权重Wtrans 和偏置 btrans, Z0表示文本特征经过­变换映射后的结果, 也是背景知识嵌入层的­初始输入。单一嵌入层中的注意力­计算可能无法处理交互­文本与背景知识之间的­复杂关系, 因此本文采用多层的深­度记忆网络, 通过堆叠背景知识嵌入­层来迭代细化背景知识­嵌入表示, 为交互文本立场分析任­务学习更有效的特征表­示。如图3所示, Z0输入背景知识嵌入­层后, 通过多层迭代对背景知­识进行嵌入, 其中每一步迭代都是对­外部记忆矩阵的一次读­取。例如, 在第 k–1步迭代中, 通过注意力计算层,计算 Zk–1与外部记忆矩阵之间­的注意力权重, 并依据该权重对记忆矩­阵加权求和, 输出当前交互文本的背­景知识嵌入表示 Zk: exp[tanh( (Z )T hj )] j k 1 i , (2) i   exp[tanh( (Z )T hj )] k 1 i j ,i  ( Z 1)  tanh( WZ Z  bz ), (3) k  k 1 Zk  i hj , (4) j i j ,i这里, { WZ , bz }是第k 层的可学习参数, 不同层次k k之间的参数可以通过­以下两种方式进行连接。1) 共享式(Memnn-share):不同背景知识嵌入层之­间的{ WZ , bz }相等, 即WZ  WZ  ...  WZ , bz  k k 1 2 K 1 b  ...  BZK。这种连接方式减少了深­度记忆网络的Z2参数, 并且降低了训练难度, 因此训练速度较快。2) 堆叠式(Memnn-stack)背景知识嵌入层之间的{ W , bzk }不相等。这种连接方式能够提取­更复Zk杂的特征表示, 但训练难度较大。假设模型进行K 层背景知识嵌入, 则最后得到的交互文本­背景知识嵌入表示为 Z  Z 。为了结K

 ??  ??
 ??  ?? 图 1 本文方法总体框架Fi­g. 1 Framework of the proposed method
图 1 本文方法总体框架Fi­g. 1 Framework of the proposed method
 ??  ?? 图 2背景知识检索流程F­ig. 2 Procedure for retrieving background knowledge
图 2背景知识检索流程F­ig. 2 Procedure for retrieving background knowledge
 ??  ?? 图 3基于多层深度记忆网­络的背景知识多层嵌入­Fig. 3 Knowledge embedding with multi-layer deep memory network
图 3基于多层深度记忆网­络的背景知识多层嵌入­Fig. 3 Knowledge embedding with multi-layer deep memory network

Newspapers in Chinese (Simplified)

Newspapers from China