公司话题提取及其趋势分析

时间:2022-09-20 06:25:33

公司话题提取及其趋势分析

摘要:随着信息技术的发展,人们由一个信息匮乏的时代进入到了信息爆炸的时代,大量信息通过媒体、互联网等各种途径冲击着人们的大脑。面对庞大的数据,人们很难找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取话题等方向。本文从专利文档角度出发,对公司的专利文档进行分析,提取其潜在的热点话题,并将其集成到专利检索系统Patent Miner中。在挖掘公司潜在信息,提高用户的搜索效率方面具有重要意义。

关键词:话题提取 话题模型 PLSA 专利分类 Google Chart Tools

1 概述

信息超载这个词最早出现在1970年AlvinTomer的《未来震撼》一书中并被人们所熟知[1]。进入信息时代,信息技术以前所未有的速度迅猛发展着,信息超载的现象越来越清晰地呈现在人们的眼前。随着网络技术的飞速发展,人们接受的信息正以各种形式纷至沓来,信息量的日益增多使得用户很难轻松准确地找到他们想要的信息。为解决这种问题,研究者们开始着手在大量数据中挖掘有用的信息、对庞大的信息建立索引、在文档集中提取主题等方向。

话题提取旨在挖掘文档集合中的重要信息,在学术信息检索领域具有重要的作用。研究者们很早就注意到了挖掘文本信息这个重要领域,并且做了很多研究。1990年Deerwester等人提出LSA模型,认为文档和单词之间还有一层潜在语义空间[2],1998年Papadimitriou等人则在明确地指出文档和单词之间存在topic层[3],后来的研究者们便开始从topic层面进行话题提取并衍生出一系列的模型以及应用。

本文从公司的专利文档入手,从topic层面试图提取公司的热点话题并分析其发展趋势,如图1所示。本文所实现的话题提取有两种思路,第一种主要基于PLSA算法,另外一种则是根据专利文档的特点,利用专利所属的类别名称来表示公司话题。由于篇幅有限,第二种方法就不进行介绍了。在公司话题趋势分析方面,本文利用Google Chart Tools图表将每个公司的话题演化趋势以折线图的方式展现给用户,方便用户浏览查看,提高用户查找效率。

图1 公司话题提取示例

2 研究目的及方法

随着计算机和互联网的迅猛发展,信息迎来了大爆炸时代。大量的数据的出现给人们的使用和选择都带来了困扰。话题的提取则可以有效地缓解这种困扰,用户不需要阅读大量的文献就可以发掘这些关键的信息,对于提高用户的搜索效率和工作效率以及提高网站的可用性方面都具有很重要的意义。

本研究课题是科研项目专利检索系统Patent Miner项目的一个子课题,在195,263家公司的海量专利数据的基础上对公司话题进行提取分析。实验采用Myeclipse开发平台,主要运用Java语言进行开发,并需要掌握一定的Html,CSS和JavaScript知识。

2.1 形式化的问题定义

给定一个公司A,让DA表示这个公司A所有文档的集合,即DA={d■■,d■■,…,d■■}。根据Bag-of-Words模型假设文档集合DA可以生成相应的字典W={w■■,w■■,…,w■■},那么就可以把数据集表示成一个N×M的共生矩阵,其中N=(N(d■■,w■■))i,j,n(d■■,w■■)表示A公司中字典中的第j个单词在第i个文档中出现的次数。

我们可以将公司话题提取的问题描述如下:对于一个给定的公司A,M个该公司下文档的集合DA和对应的N×M的共生矩阵,我们的目标是:

找到几个topic,这些topic可以用字典中的词表示

根据PLSA模型,在文档与字典之间存在一层隐含语义空间topic,文档服从在topic上的多项分布θ,θ1+θ2+…+θk=1,(k≤N);话题服从单词上的多项分布φ,φ1+φ2+…+φN=1。只要根据PLSA模型计算出topic在word上的分布,再对结果进行排序取概率最大的几个word即可。根据上面的定义,给出问题的最终定义:

问题2.1:基于PLSA模型的公司话题提取对于一个给定的公司,话题提取的目标是对全部文档集进行遍历,生成字典W和矩阵n(d■■,w■■),利用PLSA模型得出若干话题,并得出每个话题在word上的分布{P(wi|zj)imN,jmK},并对其排序。

2.2 PLSA算法

Probabilistic Latent Semantic Analysis(PLSA) 是概率统计模型中经典的模型之一,是Latent semantic analysis(LSA)的改进版。

LSA是在传统的单词与文档的映射中间加入了潜在语义空间,通过奇异值分解(Singular Value Decomposition)的方式来求解这个潜在语义空间。由于基于SVD,迭代计算次数非常多,在处理海量文本数据时,文档和词的维度将急剧增加,使SVD的计算复杂度呈三次方增长。鉴于此,Hofmann于1999年提出一种基于概率的潜在语义分析PLSA模型。PLSA继承了“潜在语义”的概念,通过“统一的潜在语义空间”来关联词与文档;通过引入概率统计的思想,避免了SVD的复杂计算。由于统计技术的引用,PLSA可以解决模型拟合,模型结合,模型控制等问题,可以更有效的处理多义词并明确区分不同的含义和不同类型的词语用法。

PLSA的贝叶斯网络结构如图2所示。像其他所有的统计潜变量模型一样PLSA模型引入了条件独立性假设,即在潜在变量z下文档d和词w是相互独立的。其中w∈W={w1,…,wN},d∈D={d1,…,dD},z∈Z={z1,…,zK},z≤N。

图2 PLSA结构图

上一篇:计算机网络安全技术发展 下一篇:高职院校电子商务专业课程建设与改革新思路