基于语言特征和注意力机制的中文反讽识别研究



报告人邱晓枫
报告时间2020-06-10
讨论组语法信息与语言工程
关键词反讽识别、注意力机制、语言特征
摘要或简介

目前,情感分析是自然语言处理中最活跃的领域之一。反讽是一种特殊的表达情感的修辞手段,通过与文本字面义不一致的隐含义来达到讽刺或幽默的表达效果。反讽的实际语义同字面表达存在反差,因此对于反讽的识别和情感分析具有挑战性。为了提高情感分析的准确度,同时增进对反讽语言现象的认识,本文对中文反讽识别开展研究。
针对中文反讽研究实验数据稀缺问题,本文通过人工标注获取了1291条中文反讽语料并以此为基础构建了分布平衡的实验数据集。本文考虑中文社交媒体语言特点,结合反讽理论研究提炼出四种反讽语言的形式特征。在此基础上归纳得到skip-n元词组合、标记强烈情感强度的副词、“被+X”构式、特定的标点符号、特定的网络词汇五种具体语言特征。通过卡方统计量选取多种语言特征对应的特征词。本文还从面向计算机识别的角度对反讽小类进行划分。
考虑到反讽识别目标文本的时序性和非连续依赖问题,本文以LSTM为基础,提出了一个融合语言特征的注意力机制的中文反讽识别模型(Irony-Feature Enhanced Attention Network, IEAN)。实验结果显示,该模型较基准模型在识别性能上有所提升,F值达到了0.8390,证明了该模型能够结合语言特征更好地捕捉文本深层语义。此外,该模型较传统深度学习模型在可解释性上也表现出一定优势。

发布人zwd
发布范围全网
讨论记录

下载次数912
浏览次数1949

下载文献(1.0 MB) 查看幻灯片(388.6 KB)  登录后可执行更多操作


© CCL of   Peking University  2019