基于词共现矩阵的项目关键词词库和关键词语义网络

时间:2022-08-26 07:33:52

基于词共现矩阵的项目关键词词库和关键词语义网络

摘要:针对专业领域中科技项目的关键词提取和项目词库建立的问题,提出了一种基于语义关系、利用共现矩阵建立项目关键词词库的方法。该方法在传统的基于共现矩阵提取关键词研究的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)等因素,对传统算法进行改进。另外,给出一种利用共现矩阵建立关键词关联网络,并通过计算与语义基向量相似度识别热点关键词的方法。使用882篇电力项目数据进行仿真实验,实验结果表明改进后的方法能够有效对科技项目进行关键词提取,建立关键词关联网络,并在准确率、召回率以及平衡F分数(一般用F1measure,是同一概念吗?是同一个概念F1score)等指标上明显优于基于多特征融合的中文文本关键词提取方法。

关键词:关键词提取;共现矩阵;关键词词库;关键词语义网络;电力项目

中图分类号: TP391.1 文献标志码:A

英文摘要

Abstract:In order to solve the problems of keyword extraction and project keyword lexicon establishment of technological projects in professional fields, an algorithm for building the lexicon based on semantic relation and cooccurrence matrix was proposed. On the basis of conventional keyword extraction research based on cooccurrence matrix, the algorithm considered several advanced factors such as the location, property and Inverse Document Frequency (IDF) index of the keywords to improve the traditional approach. Meanwhile, a method was given for the establishment of keyword semantic network using cooccurrence matrix and hot keyword identification through computing the similarity with semantic base vector. At last, 882 project experiment documents in power field were used to perform the simulation. And the experimental results show that the proposed algorithm can effectively extract the keywords for the technological projects, establish the keyword correlation network, and has better performance in precision, recall rate and F1score than the keyword extraction algorithm of Chinese text based on multifeature fusion.

英文关键词

Key words:keyword extraction; cooccurrence matrix; keyword lexicon; keyword semantic network; power project

0 引言

关键词提取是一项对文档索引、网页索引、文档分类、文本挖掘等领域非常重要的技术。关键词词库则是特定领域关键词的合集,关键词和关键词词库的优劣对各类检索系统、搜索引擎的性能有着重要影响[1]。关键词和关键词词库的质量不仅是评价检索系统优劣的重要标志之一,同时对我国主题词表和文献检索语言的发展有重大意义。

目前的情况下,无论是提取文档关键词,还是建立关键词词库,人工给出的结果都是最为理想的。然而,随着网络的发展,信息量的增长越来越快,网络资源正在以爆炸式的速度增长。据中国互联网络信息中心(China Internet Network Information Center,CNNIC)的《第33次中国互联网络发展状况统计报告》,截至2013年12月,中国网页数量达1500亿个[2]。人工进行关键词标注是不现实的,所以,对于关键词高效自动的提取就显得十分重要。

针对关键词的提取技术,学术界已经开展了许多研究。研究者提出了很多关键词提取方法,主要分为三类[3]:1)基于统计的方法,如词语文档的频率统计;2)基于词语网络的方法,根据一定规则将文档映射为词语网络,利用词语网络计算词语的关键度;3)基于语义和自然语言理解的方法,利用词语的语义特征提取关键词。

在统计方法领域,词频逆向文件频率(Term FrequencyInverse Document Frequency,TFIDF)是一种常用的统计模型,在关键词抽取中应用广泛。文献[4]是基于多特征信息对中文网页进行关键字提取,具体处理上,文章综合考虑了网页上的标题和交互信息,对TFIDF进行了改进。文献[5]也是在统计方法方面对TFIDF进行改进,以解决IDF值的大小和代表文本特征之间不匹配的问题。文献[6]考虑了词长、位置、词性的启发知识,提出了改进的词频逆向词语频率(Term FrequencyInverse Word Frequency,TFIWF)权重算法。在词语网络方面,文献[7]利用了参考文献和原文献重要的上下文关系,通过创建词语共现图和概率主题模型,对词语的相关性进行计算。文献[8]将候选词项与文献引用之间的关系抽象为二部图,使用CoHits方法迭代计算词项重要性得分至收敛,选出得分最高的词项作为关键词。与上述处理参考文献的方法不同,文献[9]则是基于访问日志文件进行关键词提取的,由于访问日志文件和用户的搜索行为关系很大,文章利用了记录和用户索引语句的关系,用聚类的方法将相似的关键词进行分类。在网页关键词提取方面,文献[10]利用网页的社会化标签(Tag)来提高网页关键词抽取的质量,提出了TagTextRank方法。该方法通过对目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合。语义和自然语言理解方面,大部分考虑了词语的语法语义、词语的关联关系,以及词的共现关系等。文献[11]在传统特征基础上增加了维基百科和文档类型的语义特征,利用分类模型进行提取关键词。词汇链为一系列语义相关的词汇的集合,用于表示将文本中相关的词构成一个链的过程。文献[12]利用基于知网的词语语义相关度算法对词汇链的生成算法进行了改进,对关键词进行了标引。

上述文献中,对关键词研究主要集中在识别特定关键词,以及如何对文档进行关键词的抽取等方面。但是对于关键词词库的建立相关的研究,却相对较少。

在科研活动中,项目评审或咨询发挥着不可替代的作用,如何选择合适的专家及有关专业技术人员将直接影响到相关工作的质量,正确选择专家对于保证评审结果的公正、准确、合理是至关重要的。对科技项目进行量化分析,其中的一个基础工作是建立项目关键词词库。因此,本文针对科研项目评审的场景,选取电力行业相关数据[13]作为数据源,对关键词词库的建立进行研究。

本文主要思路是在词共现矩阵的基础上建立项目关键词库。目前,词共现矩阵的构造方法主要是计算两个关键词共同出现在同一个文档中的次数,即通常意义的词频作为矩阵元素的度量,但它们都存在着缺陷。基于词频的方法只考虑高频词对文档主题的贡献,而没有考虑非高频词对文档主题的贡献。特别是一些高频词,在所有文档中出现的频率都非常高,但是它们包含的信息却非常少。另外, 根据词项在文中出现的位置不同,词项被选为关键词的概率也是不同的。如出现在题目和摘要中的词往往比出现在正文的词所含信息量更多,被提取为关键词的概率更大。还有词性的因素,如名词、形容词、动词等成为关键词的概率比介词、连词、助词等大得多。本文在基本词共现矩阵的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率IDF的关键信息,提出了改进的关键词词库建立算法。

本文的主要工作如下:

1)改进传统的基于词共现矩阵的关键词提取算法,在语义层面上考虑了词语出现的位置、词语的词性和逆向文件频率等关键信息。

2)利用关键词共现矩阵,计算了关键词的语义关联网络,用于发现热点词。

3)本文方法对项目数据自动筛选分词并获取项目关键词,实现了关键词库的建立和动态更新。

1 相关工作

1.1 原来未加中间连接符,是否应统一为加连接符的形式应该统一加中间连接符,另外TF前面“”这个符号是否人为添加?后面很多处这种问题,应该去掉。TFIDF统计方法

TFIDF是信息检索系统最常用的一种统计方法和加权技术,用来评估关键词对于一个文件集或语料库中一份文件的重要程度。对于不同的问题而言,TFIDF有很多不同的形式[14]。TFIDF基于这样一种假设:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF分为两个部分原文是否掉了内容?核实目前添加的内容是否正确这里tf前面也有“”符号,这个不应该添加。

1.2 词语语义相似度

词语语义相似度反映的是词语间的关联程度,如“阅读”“书籍”两个词,“阅读”可以作为动词也可以作为名词,“书籍”只作为名词。“阅读”和“书籍”之间存在语义关联关系,因此两者具有语义相似度。计算语义关系的方法分为两种[3]:基于规则和基于统计的方法。基于规则的方法需要借助于世界知识来计算,根据资源中概念间的语义关系来计算词汇间的相似度;基于统计的方法常借助于大规模语料的训练来判断两个词汇的上下文的相似度。本文主要利用统计的方法进行语义相似度的计算。

由于词汇的相似性由人为判断而具有较强的主观性,因此通常先计算词汇间的语义距离然后再用公式转化为相似度值。一般而言词汇间的语义距离是一个大于等于0的实数,数值越大相似度越大;相反,相似度越小。相似度计算方法有很多种,如欧氏距离、曼哈顿距离、夹角余弦等。本文主要利用的是机器学习中应用比较广泛的夹角余弦[15]。对于两个文本向量,夹角余弦度量方法通过计算两者向量空间中的夹角余弦,将两者相似度映射到坐标上,结果越接近1,表明两者越相似。夹角余弦的计算方法如下:

1.3 语义基向量

语义基向量是领域关键词语义向量空间的中心值,是领域簇的聚类中心,它和Kmeans等聚类算法中的簇中心类似。对于本文所研究的专业领域来说,语义空间是聚合在一类的,语义基向量是语义空间倾向性的量化。通过计算候选词向量和语义基向量的相似度,量化候选词的重要性。

通过计算核心关键词与基准向量之间的相似度作为此核心关键词重要程度的度量。定义基准向量权重的各个属性的值是所有关键词向量权重向量对应属性值的平均值[16-17],即:

其中:Wb[k]表示基准权重向量的第k个属性,wi[k]表示权重向量i第k个属性的值,n表示权重向量的个数。

1.4 中文词性和文章结构特征

与英文由空格进行自动分词不同的是,中文的词语需要进行专门的分词,然后对文档进行分析。进行中文关键词的提取需要特别重视词语的属性特征和文章结构特[5]。从词语属性特征来说,一般来说,动词、名词、形容词是句子的主干部分,副词、数词、代词等针对本文的应用目的也具有重要的意义,助词、连词、代词、拟声词等虚词只起修饰作用。本文重点考虑名词、动词以及形容词。

在文章结构方面,在特征提取之前先对文本的各个部分的重要程度作区分,无论哪种类型的文本,一般都会有标题。通常标题部分特征信息的含量都比文章其余部分要大,文章的开头和结尾含有的信息量比正文的其他部分要大。对于本文的电力研究文章来说,分为题目、摘要、关键词以及正文等主要部分。各个部分的重要程度不同,题目和关键词部分相较于其他部分更重要,因此对各个部分赋予不同的权重,对关键词的提取是有帮助的。

1.5 词项间关联度

词共现矩阵是词共现模型的量化,词共现模型是基于统计方法的自然语言处理研究领域的重要模型之一。它的基本假设的基础是:在大规模语料中,如果两个候选词经常共现在文档的同一窗口单元(如一句话、一个自然段等),则认为这两个词在意义上是相互关联的,并且共现的概率越高,其相互关联越紧密[17]。

2 关键词词库和关键词关联网络建立算法

建立关键词的初始部分是选取种子关键词,又称为核心关键词,作为后续算法的种子词库。考虑到项目关键词是整个项目中作者人工选取的关键词,具有较好的分辨作用,因此本文选取项目关键词组成种子关键词词库。利用种子关键词库和分词工具对项目文档进行分词获得待选关键词,然后通过建立关键词共现矩阵,选择与基向量相似度最高的关键词加入到离线词库中。对核心关键词词库建立权重的词共现矩阵,然后计算各个节点之间的相似度,得到关键词关联网络。下面将详细阐述该算法的主要过程:

步骤1 计算关键词基向量Wb。首先对数据进行预处理,对数据库项目数据进行剔除标点符号、剔除停用词等无关词的操作。项目题目和项目关键词是对项目内容以及相关领域的高度概括,因此本文通过对项目数据库项目题目和项目关键词进行分词和统计获得核心关键词。首先对项目关键词进行剔除标点等操作,将项目关键词加入核心关键词词库;然后利用中国科学院分词工具ICTCLAS将项目题目进行分词,剔除停用词后,将结果加入核心关键词库;最终,根据核心关键词词库的统计结果建立核心关键词共现矩阵Mc=[核实矩阵内各元素是否黑?各元素是否为向量或矩阵1:元素为列向量,需要加黑。

其中Si, j表示i, j核心关键词之间的相似度。Gs会根据相似度大小确定图中节点之间边的权重。之指代什么?之指代矩阵中的“关键词”。可以修改为,“对于矩阵中的关键词,若与之相似的其他关键词越多,同时相似性越高,则该关键词对文档集的重要程度更高”对于矩阵中的关键词,若与之相似的其他关键词越多,同时相似性越高,则该关键词对文档集的重要程度更高,如图1中的是否黑?不黑w1。在图1关键词语义关联网络中,边的粗细代表节点间的相似度,关键词wi的面积大小代表该关键词对文档集的重要程度。

其中:m为待选关键词的个数,n为核心关键词的个数,Ci, j为待选关键词i和核心关键词j的共现度。

步骤4 计算待选关键词与基向量的相似度,根据相似度的关键词词库。由步骤3计算得到的关键词词库Mw=[w1w是否应黑?是否应为一字空间隔?应该为黑。抱歉这里是我的失误,各元素间应为一字空格间隔,不是逗号间隔。, w2, …, wn]T,利用式(4)计算每个词wi与关键词基向量Wb的相似度Similarity(wi, Wb),并利用相似度大小进行排序从而得到关键词,存入离线词库中。

步骤5 如果项目发生更新,重复步骤为何没有步骤2。这里没有问题,步骤2是中间建立关键词网络的操作,更新词库的顺序是1,3,4.1、3、4过程,在线更新词库。

3 实验与数据分析

3.1 实验设置和数据源

为了进一步验证基于词共现矩阵获取关键词库的有效

性,本文用Java语言仿真了上述算法。本文选取的数据集是电力行业研究项目数据[13],数据存储在SQL server 2008数据库中。该数据源一共包含882条数据,每条数据代表一个研究项目。每条数据包含项目名称(project_name)、内容摘要(content_abstract)、研究现状(country_study)等多列属性。其中本文选取的列属性为项目名称 (project_name)、内容摘要(content_abstract)、研究现状(country_study)、项目需求(project_need)、 研究基础(study_term),其他摘要(profit_abstract)等6列数据。该6列数据对应的权重分别为λk(k=1,2,…,6),经过多次实验,相关参数设置如表1。对于词性方面的考虑,由于本文的实验数据源为电力方面的科技项目,核心关键词主要为名词,因此本文目前仅对名词进行提取,相关参数qua=10。然而,本文对词性方面的加权技术适用于其他类型的文档,可以根据文档类型的不同,对不同词性的待选词赋予不同权重,根据实验结果进行优化调整。在此数据源的基础上进行分词并建立关键词网络和关键词词库。

3.2 实验结果

实验将882条数据分为6个数据量级,并用两组方法分别对每个数据集进行了关键词提取。首先对步骤2建立的关键词关联网络Gs进行分析。利用分析工具Ucinet对获得关键词关联网络进行可视化处理,得到图2。可以发现,882条项目数据核心词汇主要集中在“研究”“电网”“结构”“系统”,这与实际项目基本吻合。本文所选电力项目数据中,大部分集中在电力方面的研究,主要讨论的是电力系统的结构设计等方面的内容。

在关键词提取的准确性方面,实验用三种性能评估标准:准确率(precision)、召回率(recall)、和一般是F1measure,是同一概念吗同一个概念F1score对两组方法的结果进行测量。由于提取的关键词数量巨大,实验对结果进行了抽样测评,随机抽取100个词,并对该100个词进行实验分析,每次实验进行10次随机抽样。为方便起见,下面的分析中,方法1指代本文提出的方法,方法2为基于多特征融合的中文文本关键词提取方法[18]。对比方法和本文提出的方法都是利用多特征的方式对关键词加权,然而对比方法利用了词语间的关联特性进行关键词提取,并没有考虑词与词之间的语义和共现关系。两者有一定的相同性,同时存在原理上的差异性,因此选取该方法做对比实验可以比较充分地说明本文方法的正确性。

首先对准确率进行对比实验,准确率为提取的关键词中被确认为正确关键词的比率:

precision=nhit/n(11)

其中:nhit为正确关键词的个数,即命中个数;n为提取的关键词总数。在实验中发现本文提出的方法在项目文档数较少时不够稳定,如图3中项目文档数为300时,本文提出的方法的准确率低于对比实验。然而随着文档数的增加,尽管两种方法的准确率都在增长,本文提出的方法的准确率较对比算法更高,最终趋于稳定。综合来看,本文提出的方法在准确率上基本均高于对比方法。

通过上述实验过程,查看相关数据结果也发现了一些问题,导致准确率和召回率不高的原因主要是高词频词汇,由于出现次数过高被算法提取作为关键词。经过多次实验发现,“行政”“员工”“所长”“欧洲”等不能有效区分研究领域的词项大量出现,并被系统提取出作为关键词。利用式(8),考虑逆向文件频率IDF并不能完全消除过高频词汇带来的影响。

4 结语

关键词词库的建立是对科技项目进行量化分析时的一个基础工作,是对专家专业领域、科技项目进行学科分类和领域分类的关键。以往的词库构建往往基于大量语料库并利用传统的中文分词程序分词,由于行业关键词具有很强的专业性,仅仅依赖普通的分词方法很难准确识别专业术语。本文在传统的关键词提取的基础上,提出了基于词共现矩阵的关键词词库建立算法。该算法综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)。实验表明,在电力系统相关数据资源上,本文方法能有效提取关键词并建立相应的关键词词库。同时,在实验中也发现过高词频词汇会使得关键词词库中关键词的准确率下降。通过考虑更多语义上的因素,减小高词频词汇的影响,也是下一步将要研究的重点。

参考文献:

[1]FANG J,GUO L,WANG X. Semantically improved automatic keyphrase extraction [J]. Computer Science, 2008, 35(6): 148-151. (方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151.)

[2]ZHANG Z. Statistical report on Internet development in China [J]. Computer & Network, 2014(2): 5-5. (张紫. 第33次中国互联网络发展状况统计报告[J]. 计算机与网络, 2014(2): 5-5.)

[3]WANG L, HUAI X. Semanticbased keyword extraction algorithm for Chinese text [J]. Computer Engineering, 2012, 38(1): 1-4. (王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.)

[4]HE Q, HAO HW, YIN XC. Keyword extraction based on multifeature fusion for Chinese Web pages [C]// Proceedings of the 2011 2nd International Congress on Computer Applications and Computational Science. Berlin: Springer, 2012: 119-124.

[5]LI J, LI P, ZHU Q. An improved TFIDF based approach to extract keywords from Web pages [J]. Computer Applications and Software, 2011, 28(5): 25-27. (李静月,李培峰,朱巧明.一种改进的 TFIDF 网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27.)

[6]YANG C, HAN Y. Fast algorithm of keywords automatic extraction in field [J]. Computer Engineering and Design, 2011, 32(6): 2142-2145. (杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145.)

[7]LU Y, LI R,WEN K, et al. Automatic keyword extraction for scientific literatures using references[C]// Proceedings of the 2014 International Conference on Innovative Design and Manufacturing. Piscataway: IEEE, 2014: 78-81.

[8]CHEN C, LUO P, WANG S. Extraction of keywords with citation information [J]. Library and Information Service, 2014, 58(1): 101-108,116. (陈,罗鹏程,汪十红.利用引用信息的关键词提取[J].图书情报工作,2014,58(1):101-108,116.)

[9]PARK N H, JOO K H. Log based keyword extraction and spread based clustering for an efficient information searching [J]// International Journal of Software Engineering and Its Applications, 2013, 7(6):201.

[10]LI P, WANG B, SHI Z, et al. TagTextRank: a webpage keyword extraction method based on tags [J]. Journal of Computer Research and Development, 2012, 49(11): 2344-2351. (,王斌,石志伟,等.TagTextRank:一种基于 Tag 的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351.)

[11]YANG S, ZHANG B, LI S, et al. Keyword extraction using multiple novel features [J]. Journal of Computational Information Systems, 2014, 10(7): 2795-2802.

[12]LI G, DAI Q. Keywords automatic indexing based on lexical chains [J]. Documentation, Information and Knowledge, 2011(3): 67-71. (李纲,戴强斌.基于词汇链的关键词自动标引方法[J].图书情报知识,2011(3):67-71.)

[13] State Grid Information and Telecommunication Branch. State grid[EB/OL]. [2014-12-01]. http://.cn/.给出对应英文,给出的是首页是否恰当?不具体,作者指出是保密考虑未给出具体网址(国家电网公司信息通信分公司.国家电网公司[EB/OL].[2014-12-01].http://.cn/.)

[14]AIZAWA A. An informationtheoretic perspective of tfidf measures [J]. Information Processing and Management, 2003, 39(1): 45-65.

[15]DEHAK N, DEHAK R, GLASS J, et al. Cosine similarity scoring without score normalization techniques [EB/OL]. [2014-12-01]. http://groups.csail.mit.edu/sls/publications/2010/Dehak_Odyssey.pdf.

[16]MONGE A, ELKAN C. The field matching problem: algorithms and applications[C]// KDD 1996: Proceedings of the 1996 Knowledge Discovery and Data Mining (International Conference). Menlo Park: AAAI Press, 1996: 267-270.

[17]LEI Y,LI Y,WANG C,et al. Method on entity identification using similarity measure base on the weight of Markov random walk [J]. Journal of Hebei Normal University: Natural Science Edition, 2010, 34(1): 26-30. (雷钰丽,李阳,王崇骏,等.基于权重的马尔可夫随机游走相似度度量的实体识别方法[J].河北师范大学学报:自然科学版,2010,34(1):26-30.)

[18]ZHANG J. Chinese text keyword extraction method based on multifeature fusion [J]. Information Studies: Theory and Application, 2013, 36(10): 105-108.(张建娥.基于多特征融合的中文文本关键词提取方法[J].情报理论与实践,2013,36(10):105-108.)

上一篇:中国最长寿的百岁夫妻 下一篇:《单片机》教学方法的发展与改革研究