人工智能数学理论基础综述

时间:2022-04-12 01:04:40

人工智能数学理论基础综述

摘 要:人工智能是20世纪三大科学技术成就之一,数学是其关键的理论基础,使其成为了一门规范的科学。以人工智能的萌芽期、诞生期、发展期为视角,介绍了人工智能典型数学基础――布尔逻辑、概率论、可计算理论、模糊集理论、粗糙集理论、混沌与分形、核函数和主曲线、云模型、贝叶斯网等的发展简史,并对人工智能的数学基础发展趋势做了展望。

关键词:人工智能;概率论;可计算理论;不确定性推理

中图分类号:TP39;TM74 文献标识码:A 文章编号:2095-1302(2017)07-00-04

0 引 言

人工智能、空间技术和原子能技术被称为20世纪的三大科学技术成就,人工智能的研究开展是智能机器人技术、信息技术、自动化技术以及探索人类自身智能奥秘的需要[1]。科学界有一个共识,即智能化是管理、自动化、计算机以及通信等技术领域的新方法、新技术、新产品的重要发展方向。人工智能是由数学、哲学、心理学、神经生理学、语言学、信息论、控制论、计算机科学等多学科相互渗透而发展起来的综合性新学科[2]。数学使人工智能成为一门规范的科学,是人工智能发展必不可少的基础,在人工智能的各个发展阶段都起着关键的作用。目前,关于人工智能数学发展史的研究综述还很少。本文以人工智能发展的三个阶段――萌芽期、诞生期、发展期为视角,介绍了人工智能的数学基础发展史,并对其数学基础的发展趋势进行了展望。

1 人工智能萌芽期的数学基础

1956年以前被称为人工智能的萌芽期,在这个期间,布尔逻辑、概率论、可计算理论取得了长足的发展。布尔逻辑是英国数学家George Boole于19世纪中叶提出,典型的一元算符叫做逻辑非(NOT),基本的二元算符为逻辑或(OR)和逻辑与(AND),衍生的二元算符为逻辑异或(XOR)[3]。在Boole逻辑的基础上,Frege发展出了一阶逻辑,研究了命题及由这些命题和量词、连接词组成的更复杂的命题之间的推理关系与推理规则[4],从而出现了谓词演算。这就奠定了人工智能抽取合理结论的形式化规则――命题逻辑和一阶谓词逻辑。

人工智能要解决各种不确定问题如天气预测、经济形势预测、自然语言理解等,这需要数学为其提供不确定推理的基础,概率理论则是实现不确定推理的数学基础。概率理论源于17世纪,有数百年的发展。瑞士数学家Jacob Bernoulli证明了伯努力大数定理,从理论上支持了频率的稳定性;P.S.Laplace和J.W.Lindeberg证明了中心极限定理;20世纪初,俄国数学家A.N.Kolmogrov逐步建立了概率的公理化体系;K.Pearson将标准差、正态曲线、平均变差、均方根误差等统计方法用于生物统计研究,为概率论在自然科学中的应用做出了卓越的贡献;R.Brown发现了布朗运动,维纳提出了布朗运动的数学模型,奠定了随机过程的基础;A.K.Erlang提出了泊松过程,成为排队论的开创者[5]。概率论、随机过程、数理统计构成了概率理论,为人工智能处理各种不确定问题奠定了基础。

支持向量机是人工智能的主要分类方法之一,其数学基础为核函数。1909年,英国学者James Mercer用Mercer定理证明了核函数的存在[6]。可计算理论是人工智能的重要理论基础和工具,建立于20世纪30年代。为了回答是否存在不可判定的问题,数理逻辑学家提出了关于算法的定义(把一般数学推理形式化为逻辑演绎)。可以被计算,就是要找到一个解决问题的算法[7]。1900年,David Hilber提出了著名的“23个问题”,其最后一个问题:是否存在一个算法可以判定任何涉及自然数的逻辑命题的真实性。1931, Kurt Godel证明了这一问题,确实存在真实的局限――整数的某些函数无法用算法表示,即不可计算。在不可计算性以外,如果解决一个问题需要的计算时间随着实例规模呈指数级增长,则该问题被称为不可操作的,对这个问题的研究产生了计算复杂性。计算复杂性是讨论P=NP的问题,这个问题到现在都是计算机科学中最大的未解决问题之一[8]。关于P与NP问题有很多定义,较为典型的一种定义是在确定图灵机(人工智能之父――英数学家图灵1937年提出的一种机器计算模型,包括存储器、表示语言、扫描、计算意向和执行下一步计算)上能用多项式求解的问题是P问题,在非确定图灵机上能用多项式求解的问题是NP问题[9]。可计算性和计算复杂性为人工智能判断问题求解可能性奠定了数学基础。

2 人工智能诞生期的数学基础

1956年,麦卡锡、明斯基、香农和罗切斯特等学者召开了达特莫斯会议,该会议集聚了数学、心理学、神经生理学、信息论和电脑科学等研究领域的年轻精英。该会议历时两个月,学者们在充分讨论的基础上,首次将人工智能作为一门新学科提出来。1956年至1961年被称为人工智能的诞生期。混沌是人工智能不确定推理的新的数学理论基础,最早来源于物理学科的研究。学术界认为,第一位发展混沌现象的学者是法国数学家物理学家庞加莱,他发现了天体动力学方程的某些解的不可预见性,即动力学混沌现象。以科尔莫戈夫、阿诺德和莫泽三个人命名的KAM定理被认为是创建混沌理论的标志[10]。在概率论的基础上,出现了条件概率及贝叶斯定理,奠定了大多数人工智能系统中不确定推理的现代方法基础[5]。

3 人工智能发展期的数学基础

1961年之后,被称为是人工智能的发展期。在这期间,人工智能在机器证明、专家系统、第五代计算机、模式识别、人脑复制、人脑与电脑连接以及生物智能等领域取得了很多理论和实践成果。所有的成果都离不开数学知识的支撑,人工智能的数学基础在这个时期也取得了长足的发展。

混沌与分形为人工智能的不确定推理打开了新的思路,在人工智能的发展期,混沌与分形完成了理论的发展和应用研究的开展。1963年,美国气象学家E.N.Lorenz在研究耗散系统时首先发现了混沌运动,在他当年发表的论文“确定性非周期流”中解释了混沌运动的基本特征,介绍了洛伦兹吸引子和计算机数值模拟研究混沌的方法;1971年,法国的D.Ruelle和荷兰的F.Takens首次用混沌研究湍流,发现了一类特别复杂的新型混沌吸引子;1975年,华人学者李天岩和导师J.Yorke对混沌的数学特征进行了研究,标志着混沌理论的基本形成;1979年,E.N.Lorenz在美国科学促进会的一次演讲中提出了著名的“蝴蝶效应”,使得混沌学令人着迷、令人激动,激励着越来越多的学者参与到混沌学的理论和应用研究中来。1989年,R.L.Devney 给出了混沌的数学定义:设X是一个度量空间,f是一个连续映射,如果f满足以下三个条件则称为X上的混沌。

(1)f是拓扑传递的;

(2)f的周期点在X中稠密;

(3)f对初始条件敏感。

混沌理论在复杂问题优化、联想记忆和图像处理、模式识别、网络通信等诸多领域都有成功的运用。Yamada T 将混沌神经网络用于TSP问题优化中,结果混沌神经网络表现出强大的优化性能[11]。混沌理论在联想记忆的应用上显示出优越的性能,可应用于信息存储、信息检索、联想记忆、图像识别等方面[12]。模式识别是人工智能的主要研究问题之一,混沌学在此领域也有成功的应用,Kyung Rung[13]将混沌回归神经网络应用于朝鲜口语数字和单音节语音识别,与常规的回归神经网络相比,新方法的效果更佳。李绪[14]等将混沌神经网络模型应用于手写体数字识别和简单图像识别,实验显示,混沌神经网络对手写体识别正确率和可靠度高达90%以上。

1967年,法国数学家B.B.Mandel brot 提出了分形学的里程碑问题――英国海岸线有多长?成为人类研究分形几何的开端[15],分形理论是对欧氏几何相关理论的拓展和延伸。1968年,Madndelbrot 和Ness提出了分形布朗运动,并给出了离散分形布朗随机场的定义[16]。Peleg S于1984年提出了双毯覆盖模型[17],这是对Mandel brot在估计英国海岸线长度时的一种推广。基于分形的理论和思想,人们抽象出一种方法论――分形方法论[17],该理论在人工智能领域的典型应用是用于网络流量分析。1993年以来,陆续有许多这方面的研究成果出现。通过对局域网高分辨率的测量分析,leland[18]发现以太网流量表现出自相似的分形性质。进一步深入研究发现,在较小的时间尺度上,网络流量体现出更复杂的变化规律,由此出现了多重分形的概念[19]。分形理论用于实现网络流量智能分析,已经有很多成功的案例,如TCP流量的拥塞控制[20],Internet 流量建模[21]。陆锦军等还提出了网络行为的概念[22],用于研究大规模网络上观测到的尺度行为。

扎德对不确定性就是随机性这一长期以来的观点提出了挑战,认为有一类不确定性问题无法用概率论解决。1965年发表了论文Fuzzy Sets,创立了模糊集合论[23]。除了传统的属于或不属于一个集合之外,模糊集认为集合之间还有某种程度隶属于的关系,属于的程度用[0,1]之间的数值表示,该数值称为隶属度。隶属度函数的确定方法大致有6种形态,包括正态(钟形)隶属度函数、岭形隶属函数、柯西隶属函数、凸凹型隶属函数、隶属函数以及线性隶属函数[24]。1978年,在模糊集的基础上,扎德提出了可能性理论,将不确定理解为与概率不同的“可能性”,与之对应的可能性测度也是一种集合赋值方法[25]。聚类在人工智能领域有大量应用,是模糊集研究的较早的一个方向[26]。模糊集理论在人工智能领域的典型应用还有数据选择[27]、属性范化[28]、数据总结等[29]。

离开了隶属度或隶属函数的先验信息,模糊集合运算难以进行,粗糙集理论研究了用不确定本身提供的信息来研究不确定性。上世纪80年代初,粗糙集的奠基人波兰科学家Pawlak[30]基于边界区域的思想提出了粗糙集的概念并给出了相应的定义。粗糙集从知识分类入手,研究在保持分类能力不变的情况下,经过知识约简,推出概念的分类规则,最后获得规则知识。粗糙集隶属度函数的定义有多种形式,典型的是Yao Y Y在1998年用三值逻辑进行的定义[31]。粗糙集理论的核心基础是从近似空间导出上下近似算子,典型的构造方法是公理化方法。1994年,Lin T Y最早提出用公理化方法研究粗糙集[32],之后不少学者对公理化方法进行了完善和改进。粗糙集在人工智能领域的应用主要体现在知识获取[33],知识的不确定性度量[34]和智能化数据挖掘[35]等方面。

传统的模糊数学存在隶属度、可能测度与概率区分不是^对分明的问题,目前,已经无法满足很多领域对不确定推理的需要。在发现状态空间理论以及云与语言原子模型后,1993年,李德毅院士在其文献《隶属云和语言原子模型》[36]中首次提出了云的概念,并逐步建立了云模型。云模型通过3个数字特征,即期望Ex,熵En和超熵He实现定性概念到定量数据间的转化,并以云图的方式表现出来,比传统的模糊概念更直观具体。1995年,李德毅等人在其文献隶属云发生器中系统化的提出了云的概念[37]。1998年,该课题组在一维云的基础上进一步提出了二维云的数学模型和二维云发生器的构成方法[38]。2001年,杜o提出了基于云模型的概念划分方法――云变换[39]。2003年,李德毅课题组提出了逆向云算法[40]。2004年至2007年,该课题组进一步完善了云模型的数学基础和数学性质,将云模型抽象到更深层次的普适性空间。云模型在人工智能的多个领域都有成功的应用,包括定性知识推理与控制,数据挖掘和模式识别。如1999年,李德毅将云模型用于倒立摆的控制[41];2002年,张光卫建立了基于云模型的对等网信任模型[42];2001年,岳训等人将云模型用于Web数据挖掘[43];2003年,田永青等人基于云模型提出了新的决策树生成方法[44];2009年,牟峰等人将云模型用于遗传算法的改进[45]。

贝叶斯网络起源于条件概率,是一种描述变量间不确定因果关系的图形网络模型,是目前人工智能,典型用于各种推理的数学工具。最初的贝叶斯网络时间复杂度很大,限制了其在实际工程中的应用。1986年,PEARL提出的消息传递算法为贝叶斯网提供了一个有效算法[46],为其进入实用领域奠定了数学基础。1992年,丹麦AALBORG大学基于贝叶斯网开发了第一个商业软件(HUGIN)[47],可实现贝叶斯网的推理,使贝叶斯网真正进入实用阶段。1997年,Koller和Pfeffer[48]将面向对象的思想引入贝叶斯网,用于解决大型复杂系统的建模问题。将时间量引入贝叶斯网则形成了动态贝叶斯网[47],动态贝叶斯网提供了随时间变化的建模和推理工具。贝叶斯网络节点兼容离散变量和连续数字变量则形成了混合贝叶斯网,混合贝叶斯网在海量数据的挖掘和推理上有较大优势[49]。贝叶斯在人工智能领域的应用主要包括故障诊断[50],系统可靠性分析[51],航空交通管理[52],车辆类型分类[53]等。

4 结 语

人工智能科学想要解决的问题是让电脑也具有听、说、读、写、思考、学习、适应环境变化以及解决各种实际问题的能力。布尔逻辑、概率论以及可信计算理论为人工智能的诞生奠定了数学基础,这些数学理论经历了上百年的发展,已经比较成熟。混沌与分形、模糊集与粗糙集、云模型等人工智能的数学理论是近30年发展起来的,为不确定性人工智能奠定了数学基础,但还存在很多问题需要解决。就混沌与分形来说,其理论体系还不成熟,其应用在复杂问题的优化、联想、记忆等方面将更有生命力;对于粗糙集来说,其理论研究可以从粗糙集的扩展方面进行,并在相关模型下进行应用研究;就云模型来说,如何揭示其理论上的优势以及和其他相关模型的联系与区别,以及如何实现数值域和符号域共同表达的云模型都是值得研究的问题。贝叶斯网是人工智能领域目前最有效的推理工具,将来的研究应集中在概率繁殖算法的改进、混合贝叶斯网以及动态贝叶斯网的扩展研究等方面。

参考文献

[1] George F luger.Artificial Intelligence structures and strategies for complex problem solving, Fifth Edition[Z].Pearson Eduation, 2005.

[2] George F.Luger.人工智能――复杂问题求解的结构和策略[M].史忠植,张银奎,等,译.北京:机械工业出版社,2006.

[3]吕家俊,朱秋月,孙耕田.布尔代数[M].济南:山东教育出版社,1982.

[4] MOLODTSOV D.Soft Set theory-first results [J].Computers and Mathematics With Applications,1999,37(4-5):19-31.

[5]王梓坤.概率论基础及其应用[M].北京:北京师范大学出版社,1995.

[6] Mercer J. Functions of Positive and negative type and their connection with the theory of integral equations. Philosophical Transactions of the Royal Society of London[Z].1909,209:415-446.

[7] Deutsch D,Jozsa R,Rapid solution of problems by quantum computation[J].Proc R Soc London A,1992,439:553-558.

[8]杜立智,符海东,张鸿,等.P与NP问题研究[J].计算机技术与发展,2013,23(1):37-42.

[9] Sahni S.Data Structures, Algorithms and Applications in C++[M].McGraw-Hill,1998.

[10]吴祥兴,. 混沌学导论[M].上海:上海科学技术文献出版社,2001.

[11] Yamada T,Aihara K,Kotani M. chaotic Neural Networks and the Traveling Salesman Problems[C].Proc of Int Joint Conf on Neural Networks,1993.

[12]余群明,王耀南,柳青.混沌动力在智能信息处理中的应用[J].系统工程与电子技术,2001,23(5):97-101.

[13] Kyung Ryeu Jin,Sun Chung Ho. Chaotic Recurrent Neural Networks and Their Application to Speech Recognition[J].Neurocomputing ,1996,13(2-4):281-294.

[14]李绪,李光,汪乐.嗅觉混沌神经网络的研究和应用[J].传感技术学报,2004,17(2):179-184.

[15]孙霞,吴自勤,黄s.分形原理及其应用[M].北京:中国科学技术大学出版社,2003.

[16]斯林.利用分形方法提取遥感影像空间结构信息的应用研究[D].北京:中国林业科学研究院,2000.

[17] Peleg S,Narorand J,Hartley R.Multiple resolution texture analysis and classification[J].IEEE Trans PAM,1984,6(4):518-523.

[18]亢盈.分形理论的创立发展及科学方法论意义[J].科学管理研究,1998,16(6):56-59.

[19] Leland W E,Taqqums,Willenger W,et al. On the self-similar nature of ethernet traffic[J].IEEE/ACM Transactions on Networking( Extending Version),1994,2(1):1-15.

[20]丛锁,韩良秀,刘岩,等.基于离散小波变换的网络流量多重分形模型[J].通信学报,2003,24(5):43-48.

[21]陆俊秀,山秀明,任勇.TCP 流量的多尺度分析[J].数据采集与处理,2004,19(1):5-9.

[22]郑建华,曹阳,刘,等.Internet流量预报研究[J].计算机工程,2003,29(3):129-130.

[23] Zadeh L A. Fuzzy Sets[J]. Information and Control,1965(8):338-353.

[24]李洪兴,汪培庄.模糊数学[M].北京:国防工业出版社,1994.

[25]汪培庄,韩立岩.应用模糊数学[M].北京:北京经济学院出版社,1989.

[26] Pal N,Pal K,Keller J.A new hybrid C-means clustering model[C].IEEE Proc of FUZZ,2004:179-184.

[27] Richard Jensen,Shen Qiang. Fuzzy rough data reduction with ant colony optimization[J].Fuzzy Sets and Systems,2005,149(1):5-20.

[28] Frederick E Petry ,Zhao Lei .Data mining by attribute generalization with fuzzy hierarchies in fuzzy databases[J].Fuzzy Sets and Systems,2009,160(15):2206-2223.

[29] Raschia G, Mouaddib N.SAINTETIQ:a fuzzy set-based approach to database summarization[J].Fuzzy Sets and Systems,2002,129(2):137-162.

[30] Pawlak Z. Rough Set [J].International Journal of Computer and Information Sciences, 1982, 11:341-356.

[31] Yao Y Y.Generalized rough set models[C].PolkowskiL Skow ron A eds.Rough Sets in knowledge Discovery, Heideberg: Physica-Verlag, 1998:286-318.

[32] Lin T Y, Liu Q. Rough approximate operators: Axiomatic rough set theory[C].Ziarko w p ed. Rough Sets ,Fuzzy Sets and knowledge Discovery,London:Springer-Verlag,1994.

[33]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社, 2001.

[34]梁吉业, 李德玉.信息系统中的不确定性与知识获取[M].北京:科学出版社, 2005.

[35] Zhao J, Wang G Y.A data-driven knowledge acquisition method based on system uncertainty[C].Proceedings of the 4th IEEE International Conference on Cognitive Informatics. Irvine, USA, 2005:267-275.

[36]李德毅.隶属云和语言原子模型[C].计算机智能接口与应用,1993:272-277.

[37]李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展, 1995, 32(6):15-20.

[38]杨朝晖,李德毅.二维云模型及其在预测中的应用[J].计算机学报, 1998, 21(11):961-969.

[39]杜o,李德毅.基于云的概念划分及其在关联采掘上的应用[J].软件学报,2001,12(2):196-203.

[40]吕辉军,王晔,李德毅,等.逆向云在定性评价中的应用[J].计算机学报,2003,26(8):1009-1014.

[41]张飞舟, 李德毅.基于隶属云发生器的智能控制[J].航空学报,1999,20(1):89-92.

[42] ZHANG Guang-wei, KANG Jian-chu, HE Rui.Towards a trust model with uncertainty for e-commerce systems[C].Proc of IEEE International Conference on e-Business Engineering,2005.

[43]岳,孙忠林.定性预测系统的建模方法[J].计算机工程, 2001,27(9):97-99.

[44]田永青,杜国宁,李志,等.基于云理论神经网络决策树的生成算法[J].上海交通大学学报, 2003, 37(Z1):113-117.

[45]牟峰,王慈光,袁晓辉.基于云模型的参数自适应蚁群遗传算法[J].系统工程与电子技术, 2009, 31(7):1763-1766.

[46] Pearl J F.Propagation and structuring in belief networks[J].Artificial Intelligence,1986,29(3):241-288.

[47] Hugin Expert.The leading decision support tool[EB/OL].http://.

[48] Koller D,Pfeffer A.Object-oriented Bayesian networks [C].Proceedings of the 13th Annual Conference on Uncertainty in Artificial Intelligence. Providence, Rhode Island,1997.

[49] Neil M,Tailor M. Inference in hybrid Bayesian networks using dynamic discretization[J].Statistics and Computing,2007,17(3):219-233.

[50] Heckerman D,Breese J S,Rommelse K.Decision Cthe Coretic trouble shooting[J].Communication of the ACM,1995,38(3):49-57.

[51] Torres-Toledano J G,Sucar L E.Bayesian networks for reliability analysis of complex systems lecture notes in computer science[C].Proceeding of the 6th Ibero-Amercian Conference on AI: Progress in Artificial Intelligence.London,1998:195-206.

[52] Neil M,Malcolm B,Shaw R.Modelling an air traffic control environment using Bayesian belief networks[C].Proceedings of Twenty-first International System Safety Conference,Ottawa,Canada,2003.

[53] Kafai M,Bhanu B.Dynamic Bayesian networks for vehicle classification in video[J].IEEE Transactions on Industrial Informatics,2016,8(1):100-109.

上一篇:优质小麦新品种中麦629 下一篇:黄淮平原砂姜黑土区六大技术创新促进夏芝麻优...