概率潜在语义分析

时间:2022-06-26 01:57:26

概率潜在语义分析

摘 要:概率潜在语义分析是一种对双模型和同现数据进行分析的统计技术,它已经被应用于信息的检索与过滤、自然语言处理、机器学习和一些相关的领域。标准的潜在语义分析主要是基于线性代数并且对同现表格进行奇异值分解。而概率潜在语义分析则是基于从潜在的类模型中获取一个混合分解。这样我们就得到了一种更有原则性的,并且在统计方面有巩固基础的方法。为了避免过适应,我们通过缓增EM算法提出一种广泛适用的最大概似泛化模型。在大量的实验当中,我们的方法在原有的潜在语义分析的基础上做了大量和持续改进。

关键词:信息检索 同现数据 期望最大化 极大似然估计 奇异值分解

中图分类号:G201文献标识码:A 文章编号:1007-3973 (2010) 05-074-02

1引言

众所周知,潜在语义分析是专门讨论这些问题的一项技术。它的关键思想是映射高维计数向量,就像是把一个以文本文档的矩阵空间形式在一个称为潜在语义空间的地方变为一个更低维的形式。正如它的名字所提到的那样,LSA的目的就是找到数据映射,这种数据映射在词汇层次之外也能很好地提供信息,并且揭露相关实体间的联系。由于LSA的一般性,它被证明是非常有价值并且有着广泛应用的分析工具(例如[3,5,8,1]) 。然而,它的理论基础在很大程度上还不令人满意并且不完整。

这篇文章提出了对LSA的统计学看法,LSA又导致了一个被称为PLSA的新模型的产生。与标准的LSA相比,PLSA的概率变体有一个健全的统计基础,并且定义了一个合适的数据生成式模型。在后面的部分,有关于PLSA大量优点的详细讨论。

2 概率潜在语义分析(PLSA)

2.1概率潜在语义空间(PLSS)

我们来考虑一下在被称为因子的词汇表上的类条件多项式分布P(・z)。它们能被描绘成所有在可能多项式的M-1维的单纯形上的点。通过它的凸包,K个点的设置定义一个L≤k-1维的二次-单纯形。在持续次单纯形中,混合权重P(zd)唯一地确定一个点。尽管所介绍的潜在变量的不连续性,但连续的潜在空间被包含在所有多项式分布的空间中。对于完全概率单纯形而言,因为二次-单纯形的维数≤K-1,与单纯形的M-1的最大值相反,在多项式分布的空间中,它实现了降维,并且跨越的次单纯形能被看作是与概率潜在语义空间是等同的。

为了强调这个观点并且证实与LSA的相关性,在矩阵符号中,当被(2)参数化,让我们重写侧面模型。因此定义矩阵

,和。

联合概率模型P可以被重写为一个矩阵集。把SVD与它相比较,它能获得一系列的观测值:(i)在和的行之间的外积表明在PLSA中是条件独立的,(ii)K个因子与侧面模型中的混合成分相对应,(iii)在PLSA中的混合特性代替了奇异值。PLSA与LSA关键的不同在于利用目标函数来决定最佳分解/逼近。在LSA中,这就是L2-或根据计数隐式递增的高斯噪声假设的弗罗宾尼斯范数。相反,PLSA依赖于多项式抽样的概似函数,以模型的预言能力的直接最大化为目标。众所周知,它符合在经验分布与任何平方离差不同的模型间交叉熵和相对熵的最小化。在建模方面它提供了很重要的优势,例如,同现表格的混合近似值P是个定义明确的概率分布并且因子有清楚的意义。相比之下,LSA没有定义正规的概率分布, 甚至含有负输入。除此之外,在LSA潜在空间中,当PLSA空间中的操作说明是解释多项式词语分布,它没有明确的操作说明解释。对于模型选择和复杂度控制而言,概率方法也可以利用已有的统计方法,例如,决定潜在空间最佳维数。另一方面,在LSA中选择维数主要是根据试探法。

计算复杂度的比较对ISA有很大的益处:忽略数值稳定性的潜在问题,SVD能够被准确地计算,EM算法是一种只能保证找到概似函数的局部极大值的迭代渐进算法。尽管如此,在所有试验中,EM的计算时间没有明显地比在同现数组中的SVD更差。然而至今为止,在通过在线更新方案的EM的运行时性能改进方面,仍然未被探讨与研究,但它有很大的潜力。

2.2 主题分解与一词多义

让我们简捷地讨论一些关于这个观点的例子,进一步揭示在词汇内容方面PLSA比LSA更加优越的地方。我们已经生成了一个带有在聚类上的1568个文本摘要的数据集,并且训练一个带有128个潜在类的侧面模型。四对因子见下图。这些对已经被选择为两个有最高概率的因子,分别生产词汇“segment”,“matrix”,“line”和“power”。10个最可能词汇因子的大致特征已经揭示了有趣的主题。尤其注意到用于选则在每一个主题因子上有不同意义的特殊对:(i) 第一个 ‘segment’是一个图像域,第二个是语言单位。(ii)‘matrix’表示数字的矩形表格和有一些东西被嵌套或锁入的材料。(iii)’Line’可能是图像中的一条线,也可能是谱线中的一条线。

图中从128个因子分解中选出的8个因子。显示的词干是在类条件分布P(wz)中的10个最可能的词汇。从顶部至底部按照递减的顺序。

3实验结果

在试验评估中,我们关心两个任务:(i)特定文本一元模型和名词―形容词对的复杂度最小化(ii)文本自动索引。在第一个任务上对LSA和PLSA的评价,将通过TEM表明最小复杂度的优点,第二个任务将会显示PLSA固有的统计基础甚至在与复杂度抑制没有直接联系的应用中收到的效果。

表一:平均精确结果和相关的改进,4组标准测试集的基准线方法cos+tf。比较的是LSI,PLSI,以及被组合的PLSI模型(PLSI*)的结果,在 =2/3时的256维的结果如下:

4信息检索

我们利用下面四个中等大小的有相关评价的标准文件集(i)MED,(ii)CRAN,(iii)CACM,(iv)CISI。除此之外,还有一些实验装置的细节:当K=32,48,64,80,128时,对于带有10%保持数据的每个数据集的PLSA模型已经被TEM训练了。对于PLSI而言,我们记录的最佳结果被包含在任意的这些模型中,对于LSI而言,我们记录了包含最佳维数的最佳结果。带有余弦基线得分的组合权重 已经被粗略地手动优化了,MED,CRAN:=1/2,CACM,CISI:=2/3。实验一致证明PLSA的优点胜过LSI。

实验表明,比标准LSA更优的PLSA的优点并不被局限于直接取决于复杂度的性能标准的应用中。因此在文本学习和信息检索中,统计目标函数,像复杂度,可以为分析方法提供一个一般标准。为了强调这个观点,我们在MED数据上运行一个实验,这里复杂度和平均精确度都同时被检测作为一个 的函数。

5结论

我们提出了一个无监督学习的新方法,即概率潜在语义分析,它以统计潜在类模型为基础。我们已经讨论了概率潜在语义分析比标准潜在语义分析原则性更强,因为它拥有一个语言统计函数。退火期望最大算法已经被表现为很强的适应过程。我们实验地证明了已经达到了实质绩效增益所要求的优点。因此概率潜在语义分析已经被作为最有前途的、新的、无监督的学习方法,它在文本学习和信息检索中有广泛的应用。

参考文献:

[1]黄昌宁等.语言信息处理专论[M].北京:清华大学出版,1996.

[2]陈春玲等.软件工程与数据库概论[M]. 西安:西安电子科技大学出版社,2002.

[3]朱战立.数据结构[M]. 西安:西安电子科技大学出版社,2001.

[4]张孔倚.关于人工智能技术在情报检索中的应用[J].山西大学学报,1995(3).

[5]焦玉英.信息检索(第二版)[M].武汉:武汉大学出版社,2008.

[6]方保等.矩阵论[M].北京:清华大学出版社,2004.

[7] 林杰斌译.SPSS 11.0与统计模型构建[M].北京:清华大学出版社,2004.

[8]叶明训,郑延履,陈恭亮等.线性空间引论[M].武汉: 武汉大学出版社,2002.

[9] [美]Walter Rudin 著.泛函分析(原书第2版)[M].北京:机械工业出版社.2004.

[10]杨明等.矩阵论(第二版)[M].武汉:华中科技大学出版社, 2005.

[11]隋亚莉等.概率统计(第3版)[M].北京:清华大学出版社, 2000.

[12]陈平. 应用数理统计[M].北京:机械工业出版社,2008.

[13]毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

上一篇:燃气轮机透平叶片蒸汽冷却技术现状 下一篇:新型环保油墨清洗剂的研究