知识发掘的概念及其相关理论研究

时间:2022-09-01 01:18:46

知识发掘的概念及其相关理论研究

[摘要]知识发掘是撷取隐含、有用、未被发掘、有潜在价值的知识资源的一种过程,采用先进和传统的技术、方法和手段,对数据库内外的知识进行系统分析、挖掘、发现和利用,区别于数据库中的“知识发现”,强调发掘目的的有用性、发掘源头的广泛性、发掘手段的综合性、发掘内容的知识性、挖掘价值的潜在性、应用方式的具体性等特征。通过对“酵论”、“差论”、“圈论”的重点阐述,试图分别回答知识发掘过程中发掘什么、发掘范式、发掘环境等问题。

[关键词]知识发掘 酵论 差论 圈论

[分类号]G350

1 导言

作为一种人类的活动,知识发掘(Knowledge Management,KM)早在原始社会就已经存在,经历了一个漫长的发展过程。原始经济时代,人们为了生存,结绳记事、钻木取火、狩猎、对农作物的栽培和对剩余猎物的饲养,包括氏族之间的战争都包含着知识发掘成分;农业经济时代,《易经》是人们对自然知识的高度概括,《孙子兵法》是对战争规律的全面剖析,《天工开物》是对民间手工技艺的详细描绘,《君王论》是对王者之道的精辟论述,《国富论》是对经济规律的深刻揭示,《本草纲目》是对中药知识的系统总结,它们都是知识挖掘的结果;工业经济时代,科学技术不断发展,现代管理推动整个社会不断进步,知识的发掘为知识社会孕育了胚胎;知识经济时代,经济的基础已从自然资源转化为知识资源,知识成为最重要的资源,知识发掘成为最重要的生存发展手段。人类社会中知识活动的发展过程如表1所示:

纵观人类发展的历史,不难看出人类社会创造财富的历史进程随着知识发掘的水平而变化(见图1)。在当今“信息爆炸”、“信息泛滥”的社会,一个国家、一个社会组织、一个自然人的知识发掘能力及其发挥状况直接代表着自身的生产力水平,反映着自身财富积累的状况和对人类贡献的大小,决定着自身的生活方式和生活质量,影响着自己的命运和前途。认识知识发掘的本质,提高知识发掘水平,增强知识发掘效率,是整个人类社会生存发展最基本的任务,重视研究知识发掘理论和实践问题对于完成这一历史重任有着重要的意义。

2 知识发掘的概念

20世纪80年代末,人们开始研究知识发现(Knowledge Discovery,KD)。知识发现是数据库中的知识发现(Knowledge Discovery in Databases,KDD)的简称。1989年8月在美国底特律召开的第11届国际人工智能联合会议(International Joint Conferences onArtificial Intelligence)的专题讨论会上首次出现KDD这个术语。随后在1991年、1993年和1994年都举行KDD专题讨论会,随着KDD在学术界和工业界的影响越来越大,KDD组委会于1995年把专题讨论会更名为国际会议,同年在加拿大蒙特利尔市召开第一次KDD国际学术会议,以后每年召开一次。

1992年,Frawley w,Piatetsky-Shapiro G和Matheusc共同提出了知识发现的定义:“Knowledge discovery isthe nontrivial extraction of implicit,previously unknown,and potentially useful information from data.”随后,Pia―tetsky-Shapiro G等人又把KDD的概念进行了完善,至今被广泛引用:“Knowledge discovery in database is thenontrlvial process identifying valid,novel,potentially usefuI,and ultimately understandable patterns in data.”即数据库中的知识发现是指从数据库中获取有效、新颖、有潜在应用价值并最终可理解的知识模式的非平凡过程。

为了解决使用率很低的问题,国内外学者围绕方法、应用等重点问题进行了一系列研究,如从经典理论、概率论、模糊理论、可能性理论和证据理论等人手探索系统模型方法,研究应用系统的流程共性取得了令人瞩目的进展。

虽然知识发现的研究受到前所未有的重视,但其应用还有很大的局限性。这不仅是知识发现技术还很不成熟的问题,更重要的可能是技术以外的问题。对于广大的管理决策者、科学工作者和信息收集、加工、服务者来说,通过技术手段从数据库中发现的“知识”,尽管它新颖、有潜在应用价值并能被理解,但它并不是真正意义的知识,一般只是“准知识”或“过渡性知识”而已。真正能解决问题并被人们广泛接受的知识一般是数据库内与库外、隐性与显性、人脑与电脑(系统)、信息与知识的互动、协调、统一、创造的结果。限于数据库中的发现,不可能克服数据库自身存在的信息不全、信息不新、信息不准的问题,而知识挖掘要求信息源必须是真实的、大量的、适时的;不可能收集到隐性知识,而形成新的知识系统,隐性知识可能比显性知识更关键;不可能有效实现千差万别的个性化服务问题,而知识服务必须个性化。当然,笔者不排除知识库中知识发现的基础性地位和重要作用,但它不能替代其他因素的作用,不能过分强调技术的功能。

为此,笔者将采用先进的和传统的技术、方法和手段,对数据库内外的知识进行系统的分析、挖掘、发现和利用,称之为知识发掘,以示与仅限于数据库中的“知识发现”之间的区别,同时试图强调其概念所包含的系统性、广泛性、连续性和积极主动性,以求得更好的实际应用效果。需要特别说明的是,知识发掘不是由笔者首次提出来的,如张宗橙、李宏等专家学者在自己公开发表的文章中就提出过此类概念,笔者只是在这里突出其特定的内涵、特征以及重要作用而已。

总之,知识发掘是撷取隐含、有用、未被发掘、有潜在价值的知识资源的一种过程。在实际运用中,这个过程需要运用信息组织与分析等发掘技术和传统有效的分析方法,通过相关参与者的互动,来反复探索数据库及其他相关的知识源,以发现新的、有用的规律,再经过人们的解读、完善、推介和连接,使发现的规律信息变成现实可用的知识。

知识发掘概念有以下要点:①发掘目的的有用性,把撷取有实际意义的知识作为一切工作的出发点和落脚点;②发掘源头的广泛性,重视有序的资源,也要重视无序的隐性的资源;③发掘手段的综合性,要充分利用数据库技术、人工智能、机器学习、神经网络、模式识别、归纳推理、统计分析等现代技术和手段,同时要利用有效的传统方法;④发掘内容的知识性,有新的价值提升,与发掘源头的信息有质的区别;⑤挖掘价值的潜在性,其价值是隐含、未知的,其表现形式可以是多样性的;⑥应用方式的具体性,通过具体的人或组织实现其价值,具有个性化的特征。

3 酵论(ferment theOry)――“发掘什么”的思考

笔者将信息(知识)利用按照不同的层次分为大众公益型信息利用、专门型信息利用和发掘型知识利用三个类型,各种类型的主要特征,如表2所示:

从表2中可以得知,知识发掘的目的全在于应用,能应用的成果一定含有实际价值,而价值主要体现在酵化功能上,经过酵化的结果一定有新的质变,这是知识发掘与一般的信息收集加工最本质的区别。在这个问题上许多专家学者进行了有益的研究,做出了积极的贡献,如和金生教授提出了知识发酵理论,建立了知识发酵模型等。

笔者把知识发掘出来的具有酵化功能的,能使一定对象信息(知识)结构发生变化的知识资源称作“信息酵”(Information Ferment,IF);把作用于一定对象在一定时间内所固有的信息量与信息结构的组合状况称作“信息基”(Information Base,IB)。这里,对发掘出来的结果主要强调以下要点:

・前提是具有酵化功能。如同做米酒所用的酒曲,它具有让米饭发酵的功能。酵化功能主要体现在催化、分解和合成三个方面,其过程往往围绕某一个具体的“策略”、“计划”、“方案”集聚和连接。

・具有“专一性”特征。知识发掘的成果是从外界注入的,只有依托、服务于一定对象才能发挥功能,而作用于其他对象可能是完全不同的效果。

・产生酵化功能是有条件的。除知识发掘的成果自身原因外,还取决于一定对象接受“信息酵”的能力,同时还受到时间和场合等因素的限制。

・发掘知识利用过程实际就是“信息酵”影响“信息基”的过程。笔者将“信息酵”与“信息基”的作用关系采用以下方程式表示:I(b)+I(f)=K(b+f)。式中I(b)为一定对象的“信息基”;I(f)为注入一定对象的“信息酵”;K(b+f)为一定对象的“信息基”经过酵化之后的新的信息(知识)体。

“信息酵”与“信息基”的作用过程如图2所示:

笔者把以上关于“信息酵”的理论简称为“酵论”(ferment theory),它试图从理论上回答知识发掘“发掘什么”的问题。

4 差论(deviatiOH theory)――“发掘范式”的思考

一般的产品和服务似乎都按照以满足社会(用户)需求为出发点和落脚点的运作范式展开,但对于知识发掘的工作范式,笔者认为不能简单地照此行事。美国营销学者派拉索拉曼等人在评估服务质量上提出了“差距理论”(gap theory),该理论在实际应用中得到了良好的效果,它为研究知识发掘范式提供了有一定借鉴意义的新的思路。

人们在一定的信息环境中进行信息交流和利用,通过自己已掌握的知识对外部环境提供的各种信息进行消化吸收,产生新的认识,最后作出选择、实施主张、施加影响,都是以符合本人的意愿为前提的。这种“合意”(subjective recognition)是信息利用的过程与结果,是通过信息利用产生新的认识、做出抉择、实施行为的基本要件。也就是说,如果信息利用产生的结果违背了自己的意愿,那么这些决策和行为就暂时或一直不可能出现。因此,它是一种“凭着感觉走”的主观过程,其工作范式笔者称之为“信息利用主观范式”(见图3)。

但“合意”不是“合适”,“合意”总存在着诸多的客观不适应,笔者把这种现象称作“合意差”(infonnationdeviation)。“合意差”是指特定的对象在作出选择、实施主张、施加影响之时,自己已经掌握的信息量、信息结构的状况与自己所处的相关信息环境的真实状态存在的差距。而这种实际存在的差距当事人往往不能察觉,特别是在“合意”强盛时视而不见,总习惯于以失真的感觉处理问题。“合意差”具有明显的实效性,对“合意差”的自我认识总是滞后的,这种现象如果不及时进行调整,就有可能造成损失。

“合意差”具有客观性、普遍性,这是由事物认识规律的实践性所决定的。缩小“合意差”是不能依赖一般的信息加工和利用来完成的,只有通过知识发掘,提供具有“酵化”的知识资源才能使其原有的信息结构发生根本的改变。缩小“合意差”为知识发掘指明了发展方向和工作重点,提供了广阔的运作空间。从本质上看,“发掘”就是寻找和解决差异,就是寻找和修补一般性环境之下的信息差异,就是寻找和缩小主观合意与客观实际不适的时空差异。

根据“合意差”定义,急切需要信息的当事人并不清楚自己真正需求的信息(知识),因此不可能按照信息利用主观范式开展业务活动。要想求得实效,必须认识特定对象“信息基”,发现“合意差”,提供有针对性的知识(信息),使其“信息基”活化,形成新的活化体,并影响其行为。即新的路径出发点是分析“信息基”,重点是发现“合意差”,落脚点是提供“信息酵”。笔者将以上理念以及工作重点、方式和途径称之为“发掘知识利用客观范式”,如图4所示:

笔者将上述有关“合意差”的理论简称“差论”(Deviation Theory),它对于建立知识发掘的客观范式,提高知识发掘能力和知识利用水平有不可忽视的意义。

5 圈论(circle theory)――“发掘环境”的思考

知识发掘离不开一定的信息环境,只有发掘人与知识、信息环境在形式上达成一致,并且形成有序的循环,才能长期生存发展下去。即在特定信息空间,由人、知识(信息)、信息环境彼此之间构成一种均衡运动状态,其表现为人与信息环境之间以知识(信息)发掘和利用为纽带、以共生共进为目标形成的一种对立相容、平衡互动的关系,是循序不断、反复无穷的。笔者将这种循环格局称为信息生态循环圈(circling ring0f information zoology),将其思想称为“圈论”(circletheory)。信息圈是生态和社会发展的必然,也是哲学联系和运动的产物,还是思辩和论证的结果。当今社会的每一个成员,包括所有的社会组织和自然人,都有自己的信息生态循环圈,而且这个“圈”的状况决定着该社会成员的水平高低、能量大小、贡献多少,决定着其生活方式、生活质量和命运、前途。

信息生态循环圈具有自身的特点和规律:①循环的相关性。信息生态循环总是在一定的信息环境之中循环,环境条件之间总是有着必然的和内在的联系,它们总是处在一定的介质和界面上。②循环的互动性。信息生态循环总是处在彼此吸引、相互作用、双方有利的互动过程中。③循环的连续性。信息生态循环总是连续不断的进行,如果在某一个环节上脱节,整个循环就会受到影响。④循环的周期性。信息生态循环总是按照一定的周期进行。⑤循环的封闭型。信息生态循环对社会来讲是开放的,但其实际过程总是落实在具体的个体上,由这些个体的具体循环构成整个社会有序的循环。

一个持续稳定健康发展的信息生态循环圈必须以

业务支撑体、利益共同体、和谐关系体为基本支撑,三者紧密联系,缺一不可。

・业务支撑体。这是信息生态循环圈的基础和主体,它是具体的可操作的业务工作系统,没有具体业务支撑的信息循环是不存在的。知识发掘需要完整的技术支撑系统,其系统的结构状况决定了其功能。一般而言,该系统包括三个层次:基于Web服务器的表示层(HTML、JSP)、服务层、数据存储层。该系统必须采用先进的技术,包括移动和多本体技术,使其具备良好的语义性和智能性。要熟练地掌握、选择和运用知识发掘工具和方法,包括传统统计方法和模糊集(fuzzy 8et)方法、粗糙集(rough set)方法、决策树方法、遗传算法(genetic algorithm)、人工神经网络(Artificial Neural Networks,ANN)方法、最邻近技术、联机分析处理(Online Analytical Processing,OLAP)、数据可视化(data visualization)等。

・利益共同体。它不是一个简单的利益分配的问题,它是要让大家看到共同的希望,让大家为共同的目标尽到自己的职责,贡献自己的力量;在此基础上,建立一种利益共享运行机制。利益共同体是信息生态循环圈的核心内容、本质要求,是信息生态循环圈高效运行的动力,是检验运行结果的直接标准,是新一轮信息循环的起动器。共同利益必须建立在长远利益的基础上,它不是狭义的物质利益。这种利益必须明确在事前,体现在事中,落实在事后,建立在公开透明、合理合法的基础上。

・和谐关系体。“人”是感情动物,和谐关系是生产力、是财富,和谐关系体是信息生态循环圈重要组成部分,是有形物质的灵魂,建立和谐关系体符合“以人为本”的现实要求。和谐关系体贵在和谐,和谐必须建立在相互尊重的基础之上,特别是提供知识产品和服务的人更要尊重用户,真正做到“用户至上”,把用户视为自己的衣食父母。和谐关系体建立在诚实守信、交流沟通的基础上,要讲究职业道德,不断改进工作态度及工作方法。

6 结语

本文从信息(知识)内容工作者的角度分析了“知识发掘”的概念,站在理论的高度分析回答了知识发掘过程中“发掘什么”――“信息酵”;“发掘范式”――分析“信息基”、发现“合意差”,提供“信息酵”;“发掘环境”――建立“信息生态循环圈”等问题。以上研究是初步的、不成熟的,笔者希望得到同行和相关学者专家的帮助和指正,并一起研究相关问题。

上一篇:网络中心度计算方法研究综述 下一篇:SSCI收录信息科学与图书馆学期刊的分析与解读