文本情感计算研究综述

时间:2022-10-24 05:40:03

【前言】文本情感计算研究综述由文秘帮小编整理而成,但愿对你的学习工作带来帮助。文本情感计算的过程可以由3部分组成:文本信息采集、情感特征提取和情感信息分类,如图1所示。文本信息采集模块通过文本抓取工具(如网页爬虫工具)获得情感评论文本,并传递到下一个情感特征提取模块,然后对文本中自然语言文本转化成计算机能够识别和处理的形式,并...

文本情感计算研究综述

摘要:近年来,随着互联网广泛作为人们交流和表达的工具,文本情感计算成为了热点研究方向。本文针对文本情感计算相关研究进行综述。归纳不同领域的诸多学者对于情感类型的划分;介绍文本情感识别中三个主要问题的研究情况:文本情感特征标注、情感特征提取算法和文本情感分类技术。未来的研究可关注以下几点:建立统一的实验语料和词典;情感特征提取方面研究;语义成分的理解和识别。

关键词:文本情感计算 情感识别 特征提取 情感分类

中图分类号:TP391.1 文献标识码:A

情感计算为改善人机交互环境提出了新的想法和实现手段。作为一个新兴的交叉学科,情感计算引起了众多学术团体和企业机构的兴趣,在国际期刊和会议上出现了不少有关情感计算的研究成果,主流的研究对象包括表情情感、语音情感、行为情感和文本情感等。由于面部、语音和行为的信息量丰富,相应的情感识别技术的发展相对较为成熟。文本情感计算属于计算机语言学的研究范畴,在互联网的发展的推动下,Web文本逐渐成为情感信息的载体,文本情感计算体现出重要的研究价值,本文将重点放在对文本进行情感计算的有关研究,以期对今后的研究有所借鉴。

1.文本情感计算过程

文本情感计算的过程可以由3部分组成:文本信息采集、情感特征提取和情感信息分类,如图1所示。文本信息采集模块通过文本抓取工具(如网页爬虫工具)获得情感评论文本,并传递到下一个情感特征提取模块,然后对文本中自然语言文本转化成计算机能够识别和处理的形式,并通过情感信息分类模块得到计算结果。

文本情感计算主要研究情感状态与文本信息之间的对应关系,提供人类情感状态的线索。具体地,需要找到计算机能提取出来的特征,并采用能用于情感分类的模型。因此,关于文本情感识别的讨论,主要集中在文本情感特征标注、情感特征提取算法和情感信息分类这三个方面,本文将主要对这三个方面的研究详细综述。

1.1文本情感特征标注

情感特征标注是对情感语义特征进行标注,通常是将词或者语义块作为特征项。情感特征标注首先对情感语义特征的属性进行设计,如褒义词、贬义词、加强语气、一般语气、悲伤、高兴等等;然后通过机器自动标注或者人工标注的方法对情感语义特征进行标注,形成情感特征集合。情感词典是典型的情感特征集合,也是情感计算的基础。在大多数研究中,有关情感计算研究通常是将情感词典直接引入自定义词典中。

针对不同的语言文字,情感词典有所不同。例如哈佛大学编录的G(IGeneral Inquirer)词典,主要对每个英文词汇的词性、属性和强度进行了相应的标注,在英文的情感分析中广泛使用[1]。Hu整理汇编的情感词典Opinion Lexicon,也是很多研究人员选用的基础资源[2]。针对汉语文字,最常用的是知网的词典《How Net》[3],该词典既包括中文也包括英文。柳位平等人结合种子词,在《How Net》基础上形成了中文基础情感词词典[4]。还包括:张伟、刘缙等人的《学生褒贬义词典》[5];杨玲,朱英贵的《贬义词词典》[6];史继林、朱英贵的《褒义词词典》[7]等等。虽然中文的情感分析研究起步较晚,但是在情感词典的构建方面的研究发展迅速,不少研究人员在建立情感词汇本体库时,并不局限于使用单一情感词典。例如,王素格等人集成5个情感词典的基础上建立情感词表SWT,据此进行情感类别判断[8]。吴江等以《知网》《台湾大学情感词典》和《学生褒贬词典》合并去重后形成基础词典,分析web上的金融文本[9]。

运用情感词典计算出文本情感值是一种简单迅速的方法,但准确率有待提高。在实际的情感计算中,会因为具体的语言应用环境而有所不同。例如,“p薄”一词通常认为是否定词,但是在电脑、手机却被视为肯定词汇。同时,文本中常会出现否定前置、双重否定以及文本口语化和表情使用等,这些都将会对文本情感特征的提取和判断产生较大的影响。因此在进行文本情感提取时,需要对文本及其对应的上下文关系、环境关系等进行分析[10]。

1.2情感特征提取算法

文本包含的情感信息是错综复杂的,在赋予计算机以识别文本情感能力的研究中,从文本信号中抽取特征模式至关重要。在对文本预处理后,然后对初始提取情感语义特征项。特征提取的基本思想便是根据得到的文本数据,决定哪些特征能够给出最好的情感辨识。通常算法是对已有的特征词情绪打分,接着以得分高低为序,超过一定阈值的特征组成特征子集。

不少研究人员提出一些文本特征提取算法,例如文档频率法、期望交叉熵、互信息以及卡方统计量等。归纳总结现有的文本特征提取算法,整理得到表2。

在文本分析理论研究不断发展的趋势下,不同的特征提取算法都得到了很大的改进。由于特征提取算法较大程度上依赖训练集和分类算法,因此不同的研究人员在不同的应用领域对各特征提取算法的评价结果也有差异。黄萱菁认为交叉信息熵的效果比不上互信息和卡方统计量[11],而单丽莉通过比较认为交叉信息熵的效果最好[12]。李纲证明出局部文本特征选择时,互信息和卡方统计的性能比优势比的性能好[13]。可见,特征算法的优劣性并没有统一结论。针对不同的应用领域的需求,应根据具体的训练集过程和分类算法选择合适的特征选择算法。

特征词集的质量直接影响最后结果,为了提高计算的准确性,文本的特征提取算法研究将继续受到关注。长远看来,自动生成文本特征技术将进一步提高,特征提取的研究重点也更多的从对词频的特征分析转移到文本结构和情感词上。

1.3文本情感分类技术

文本情感分类技术中,主要采用两种技术路线:基于规则的方法和基于统计的方法。在20世纪80年代,基于规则的方法占据主流位置,通过语言学家的语言经验和知识获取句法规则,以此作为文本分类依据。但是,获取规则的过程复杂且成本巨大,也对系统的性能有负面影响,且很难找到有效的途径来提高开发规则的效率。

上一篇:当年的月光挂我心上 下一篇:甘肃社会管理问题的研究