网络的语言聚类综述

时间:2022-09-14 05:27:32

网络的语言聚类综述

在所有其他类型的语言网络中,词同现网络[12]最有可能胜任这一角色(详细介绍见“方法与资源”部分).鉴于以上两个问题,我们可以考虑在基于复杂网络的语言分类中采用基于平行文本的词同现网络(以下称“平行词同现网络”)作为对句法依存网络的一种可能的替代品.本研究考察在语言精细分类中使用复杂网络以及在基于复杂网络的语言分类中使用平行词同现网络替代句法依存网络的可行性.我们在12种斯拉夫语言和2种非斯拉夫语言的平行文本的基础上分别构建了14个词同现网络,并通过其主要复杂网络参数的不同组合对这些网络进行聚类分析.对分类效果的评估是通过聚类结果与这些语言(尤其是12种斯拉夫语言)在语言谱系中的亲缘关系的比对来进行的.方法与资源词同现网络是由真实语料转换而来的.在本研究中,我们将“同现”定义为两个词形在句中的相邻关系.例如,在“Johnkickedtheball”中有三对相邻的词形,即Johnkicked,kickedthe和theball.因此一个词同现网络可以表示为一个无向图G=(V,E),其中V是节点的集合,表示语料中所有不同的词形;而E是边的集合,表示词形在组句时形成的所有不同的相邻关系.因此,如果两个词形在至少一个句子中存在相邻关系,那么其对应的节点u,v∈V将被一个边e∈E所连接.根据这一定义,我们可以从真实语料中提取词形在组句时形成的所有不同的二元组,并将该二元组的集合转换为词同现网络.词同现网络可以通过自动的方式来构造.使用词同现网络的一个主要优势在于它的无歧义性,因为同现关系可以被明确地定义并且能够以理论中立的方式从语料中提取出来.一个按照以上定义所构建的词同现网络(材料取自史迪芬•平克《语言本能》的第一章).若无特别说明,以下文中提到的词同现网络均指按照以上定义所构建的网络类型.一个词同现网络和一个句法依存网络——假设它们均基于相同的真实语料——仅在边的类型上有所不同.前者的边表示词形在句中的相邻关系,而后者的边表示词形在句中的句法依存关系.

对诸多不同语言的研究数据表明[13],一个句法依存关系在较大概率上(一般在50%以上)存在于两个相邻的词形之间.这意味着词同现网络与基于相同真实语料的句法依存网络在拓扑结构上具有较高的相似性,因为二者的边存在显著的重合.词同现网络的中心节点一般为虚词,这与句法依存网络的情况[14,15]是一致的.因此,词同现网络在语言网络研究中可以作为句法依存网络的一个可能的替代品.一个词同现网络的复杂网络参数可以被用作与之对应的句法依存网络的相同参数的一种方便的近似估计,能在系统层面上大致反映一种语言的形态和句法特征.本研究构建的词同现网络所基于的平行文本包括14种语言:俄语、白俄罗斯语、乌克兰语、捷克语、斯洛伐克语、波兰语、上索布语、塞尔维亚语、克罗地亚语、斯洛文尼亚语、保加利亚语、马其顿语、英语和汉语.14种语言中有12种为斯拉夫语言,分别属于三个语支,即东斯拉夫语支(俄语、白俄罗斯语和乌克兰语)、西斯拉夫语支(捷克语、斯洛伐克语、波兰语和上索布语)和南斯拉夫语支(塞尔维亚语、克罗地亚语、斯洛文尼亚语、保加利亚语和马其顿语)[16].这些平行文本系小说《钢铁是怎样炼成的》(Kakzakaljalas’stal’)的俄语原著(N.A.奥斯特洛夫斯基著于1932~1934年期间)和其他13种语言的译本.其中12种斯拉夫语言的文本系来自EmmerichKelih所建的斯拉夫语平行语料库(详细介绍见文献[17]),而英语和汉语的文本是我们自行从这两种语言的译本中获得的.由于这14种语言中有12种同属于斯拉夫语族,并分属不同的斯拉夫语支,这为检验使用平行词同现网络进行语言精细分类的效果提供了条件.我们采用复杂网络分析平台Cytoscape的插件之一NetworkAnalyzer[18]计算了14个词同现网络的10个复杂网络参数.这些复杂网络参数是:平均度(k)、平均路径长度(L)、聚集系数(C)、网络中心度(NC)、直径(D)、网络异质度(NH)、与P(k)(度分布)拟合最佳的幂律的指数(γ1)、与P(k)拟合最佳的幂律的决定系数(R21)、与k(k)nn(相邻节点平均度的分布)拟合最佳的幂律的指数(γ2)以及与k(k)nn拟合最佳的幂律的决定系数(R22)(对这些参数及其应用的详细介绍见文献[9,19]).以上这些参数足以呈现一个复杂网络的拓扑结构特征的概貌,例如它是否为小世界或无尺度网络.聚类分析在语言分类中的使用至少可以追溯到Altmann和Lehfeldt[20]的研究.基于这些复杂网络参数的不同组合,聚类分析被用于14个词同现网络.这些参数在参与聚类之前都经过标准化.聚类分析采用离差平方和法和曼哈顿距离.根据此前基于复杂网络的语言分类研究的经验[7~9],我们选取k,L,C和NC的组合作为基准集.其他的参数组合系通过在基准集的基础上添加其他参数得到.共有64个参数组合在聚类分析中得到检验.

对分类效果的评估通过聚类结果与这些语言在语言谱系中的亲缘关系的比对来进行.由于14种语言大都为斯拉夫语言,我们侧重于考察聚类结果如何反映12种斯拉夫语言之间的亲缘关系.评估分类结果的基本标准是12种斯拉夫语言必须首先聚类,其次再与2种非斯拉夫语言聚类.换言之,聚类结果必须能将12种斯拉夫语言与2种非斯拉夫语言区分开来.如果满足这一标准,我们再考察12种斯拉夫语言是否被正确地分入各自的语支当中.在被检验的64个复杂网络参数组合中,有15个组合的聚类结果能将斯拉夫语言与非斯拉夫语言区分开来,并将12种斯拉夫语言正确分入各自的语支中.是由基准集加D,R21,γ2和R22的组合得出的.图2较好地呈现了斯拉夫语族的细分情况,12种斯拉夫语言都被准确地划分到了各自的语支中.另外,聚类也能反映某些斯拉夫语言在其语支内部的亲缘关系.例如,尽管塞尔维亚语和克罗地亚语使用不同的书写系统,但一般认为它们是同一种语言[16].塞尔维亚语和克罗地亚语在其语支内以1.70的距离被聚为一类.保加利亚语和马其顿语之间的亲缘关系也得以反映(距离为3.57).对斯拉夫语言分类的这一结果要稍好于Kelih[17]基于相同的斯拉夫语平行语料库、通过考察斯拉夫语言中的型例关系而得出的结果.后者仅仅得出了一个12种斯拉夫语言的序列,能够反映它们之间亲缘关系的远近,但无法体现它们应如何分类.该分类结果与采用包括词汇统计学[21]在内的其他方法所得到的结果大致具有可比性.聚类分析也涉及到英语和汉语这2种非斯拉夫语言.英语和汉语作为一个聚类与12种斯拉夫语言作为另一个聚类之间的距离为39.33,而英语和汉语之间的距离为3.34.这一结果不仅反映了英语和汉语作为非斯拉夫语言与12种斯拉夫语言之间的差异,也反映了英语与汉语之间的相似性.二者的相似性在此前基于真实语料的研究中[7,22]也有发现.本研究所用方法的自动化程度较高,而对人工参与的要求较低.例如,该方法无须考虑不同语言的书写系统.而且书写系统的差异被证明不会影响到语言分类的结果.在12种斯拉夫语言当中,俄语、白俄罗斯语、乌克兰语、塞尔维亚语、保加利亚语和马其顿语使用西里尔字母,而其他6种语言则使用拉丁字母.这些语言在书写系统上的差异对其分类并无影响.这也引起我们对语言与书写系统之间关系的思考.例如汉语从其特殊的书写系统来看,与英语的差异似乎非常大.然而,从本研究以及文献[7,22]中的结果来看,二者的差异实际上比想象中的要小得多.另外值得注意的是,本研究对斯拉夫语言的分类效果要明显好于Liu[22]采用依存方向等语序指标所得到的结果.这是因为本研究所采用的方法依据的是语言作为一个系统的整体特征,而非一系列难以反映语言整体性质的局部结构细节.这也表明,对于像斯拉夫语言这样具有较丰富的屈折形态变化的语言[23]来说,语序可能不是其分类的最佳依据.另外,由于本研究的方法完全是从定量的角度去进行语言分类,它反映出来的语言之间的异同是连续性的,而非离散的.

作者:刘海涛 丛进 单位:浙江大学外国语言文化与国际交流学院

上一篇:后现代文化语境中的诗歌透析 下一篇:从数字医学实践谈医学概念