数据信息论文范文

时间:2023-03-19 23:45:45

数据信息论文

数据信息论文范文第1篇

笔者以“Academic impact”(学术影响力)为检索词串在谷歌学术搜索上检索,限定时间为1991-1999年,搜索结果为66700条,限定时间为2000年~至今,搜索结果为321000条,限定时间为2005年至今,为397000条结果;以“Academicimpact”为检索词串在谷歌学术搜索上检索,总计得到搜索结果约有213000条。以“academic impact of university”为检索词串在谷歌学术搜索上检索,得到搜索结果约有2170000条,2005年以后为368000条结果。

笔者以“Academic impact”为检索词,利用Google BookSearch搜索功能,可以得到有关学术影响力书籍方面的网页链接122000个,由此可以大致了解国外相关著作发表情况和研究状况。从出版的多部学术影响力著作中,可以看出国外相关理论研究已经达到了较高的层次。例如:《学术影响力:高等教育的政治(Academic influence:the politics of higher educa-tion)》,作者Eric L. Sexton全面考察了美国高校的学术影响力问题,重点是美国的国家政策、高校自己政策、学术影响的政治化等现状;《软实力超级大国:日本和美国的文化及民族资产(Soft Power Superpowers:Cultural and National Assets of Japanand the United States)》,作者Yasushi Watanabe,David L.Mc-Conne阐述了日美,尤其是重点介绍和剖析了美国在全球的学术影响力的情况、影响和学术影响力在某些社会方面的作用;《学术影响力:高校时代的学术自由(Academic Influence:Aca-demic Freedom in the Age of the University)》这是一本深入浅出而较为全面介绍高校学术影响力的书籍。

学术影响力的理论研究反映了学术影响力实践的发展,对推动学术影响力的研究和服务的提高起到了重要作用。近年来,国外学术影响力研究方面的文献增长迅猛,反映了这一领域得到了广泛的关注。总的来说,国外关于学术影响力的文献可分为以下几个方面:第一,关于学术影响力理论研究的介绍。第二,关于学术影响力的评价。第三,学术影响力与其他社会现象的研究。学术影响力对每个领域的学术研究来说是一个挑战,有许多问题需要研究,有许多问题需要解决。

二、国内研究的现状

笔者以“高校学术影响力研究”为检索词串在中国知网上仅查得《医学信息学杂志》2009年10期的一篇题目为《基于链接分析的高校学术影响力研究》的论文。以“学术影响力研究”为检索词串在中国知网上可查得12条检索记录,但主要集中于期刊的学术影响力研究方向,如刘贵伟等著的论文《基于数据正态化处理的期刊学术影响力研究》,汤建民著的论文《学术影响力研究――基于2000~2007年CNKI数据库的分析》等。

目前,对机构进行评价研究,多以科技论文作为统计指标,如董亚杰等的《北京林业大学发表科技论文的统计与分析》、张丽园的《几所综合性大学科技论文的研究》、张淑云等的《河北农业大学高水平科技论文统计与分析》等。

也有对个人学术影响的评价研究,如黄晓鹂等的《河北理工学院教授学术影响力》、刘瑞兴的《河北理工大学一个学术影响度高的科研亮点――张玉柱教授发文与论著被引分析》等文献,也以发文量与论著被引情况作为评价指标。

随着信息资源数字化、网络化的迅速发展,以及国内学术影响力相关研究的开展和推广,高校学术影响力的理论研究和实践正发生着巨大的变化,学术影响力的理论研究和实践也不再局限于学术成果的研究,还包括所有的高校学术资源结构以及学术资源的调配运行情况。而且随着现代信息技术的发展,使得研究内容越来越丰富,由于数字化信息环境的形成,大环境背景下的学术影响力研究和探讨应运而生。

三、研究方法和研究思路

我国高校学术影响力的研究主要是选取国内有代表性的几所林业高校,对其主要的学术成果进行年代分布比较、数量比较、类型比较以及质量比较分析研究。目前,对学术成果的量化评价,主要是对科研论文的量化评价。对科研论文的量化评价,国际和国内广为采取并普遍接受的做法是将美国信息社的信息产品《科学引文索引》(简称SCI)等作为依据,通过统计SCI收录刊物的发文量和被引频次等数据,进行科学计量学分析,进而比较林业高校的学术情况。由于SCI收录中国期刊太少,仅占中国科技期刊的0.2~0.3%,用于研究统计林业高校科研论文的工具缺乏普遍性,因此引入EI(《工程索引》)和ISTP(《科学会议录索引》)等国际主要检索系统评价我国高校学术影响力。对于国内的评价系统,选取期刊论文、专利文献、科研成果、会议论文以及制定标准等数据,比较研究我国林业高等院校的学术成果情况。

在研究方法上,由于我国高校学术影响力研究的研究对象比较多,涉及范围比较广,既有跨空间跨地域研究对象的调查探究,也有纵横时间上的一个学术群体的研究对比,要用到的研究方法和手段在数量和复杂性上都要到位,才可能完成这么庞大的调查研究课题。在此文中,主要用到了以下几个研究方法:

第一,问卷调查法。问卷调查法是教育调查中最常用的收集资料的方法,是研究者通过事先设计好的问题来获取有关信息和资料的一种方法。研究者以书面形式给出一系列与所要研究的目的有关的问题,让被调查者作出回答,通过对问题答案的回收、整理、分析,获取有关信息,并对调查搜集到的大量资料进行分析、综合、比较、归纳,从而为人们提供规律性的知识。面对我国几十所包含林业学科的高校,本文中虽然只选取了全国以林业为特色的高等院校(主要有6所,北京林业大学、东北林业大学、南京林业大学、中南林业科技大学、西南林学院、浙江林学院)为主要研究对象,但在论文开题调查和撰写准备中并未仅仅局限于这6所院校的调查分析,而是通过实地走访调查、书信调查、电话调查和网上调查等多种调查方式对十几所左右高校进行了相关数据的调研。

第二,文献调研法。文献调研法是根据一定的研究目的或课题,通过调查文献来获得资料,从而全面地、正确地了解掌握所要研究问题的一种方法。文献调研法被广泛用于各种学科研究中。本文研究的是高校学术影响力,研究方向和内容决定了需要查阅、分析和研究大量文献资料。涉及多个院校多个学科的科研成果资料,笔者花了大量时间进行了对比和研究。例如在分析6所林业院校学术论文SCI、EI和ISTP收录情况时,以SCI收录论文为例,需要查阅、对比出6所院校收录数量、收录载体类型、收录语种、收录论文作者情况等多种数据,涉及的资料繁多而复杂,最后还要在取得

数据基础上再进一步地对比和分析。

第三,信息论方法。信息论方法是利用信息来研究系统功能的一种科学研究方法,美国数学、通讯工程师、生理学家维纳认为,客观世界有一种普遍的联系,即信息联系。当前,正处在“信息革命”的新时代,有大量的信息资源,可以开发利用。信息方法就是根据信息论、系统论、控制论的原理,通过对信息的收集、传递、加工和整理获得知识,并应用于实践,以实现新的目标。信息方法是一种新的科研方法,它以信息来研究系统功能,揭示事物的更深一层次的规律,帮助人们提高和掌握运用规律的能力。

第四,定量分析法。定量分析法也称“统计分析法”,指通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物间的相互关系,变化规律和发展趋势,借以达到对事物的正确解释和预测的一种研究方法。定量分析法在科学试验、学术评价和生产管理等领域应用十分广泛,是科学研究最为重要的一种研究方法。

我们在进行我国林业高等院校学术影响力比较研究的过程中,综合运用多种研究方法,这对于论文样本的选择、评价指标的制定以及评价结果的分析都具有非常重要的作用。

总之,高校各级领导要从传统学校的观念和模式中解放出来,充分认识学术影响力在信息时代对学校新的要求,要花时间了解学术影响力的知识和重要性,用大力气、大投入狠抓相关建设。提高高校学术影响力工作是高校学术活动中最能体现价值的工作,是高校学术活动的核心工作之一,也是最富于智力性成果的劳动。

哈默曾经提出,要建立核心能力必须要有一个连续性的努力,并要求高层管理人员的稳定与坚持。高校学术影响力的开展,需要形成一个高效的领导和管理机制,从领导管理上把它作为学校核心工作之一来抓,把它作为提升学校核心能力的重要工作来进行。尤其校领导要予以足够重视,责成相关负责人对此项工作直接领导和负责,高效管理,以此来保证学术影响力工作开展。

参考资料

[1]董亚杰.基于SCI对我国林业高校科研水平的分析及评价[J].现代情报,2007,11(4):135-138.

[2]鲍国海.1978~2002年美国EI网络数据库收录中国科技期刊统计分析[J].中国科技期刊研究,2004,(1):38-41.

[3]陈惠兰.纺织学科期刊被SCI、ISTP收录情况的调查分析[J].图书情报工作,2004,(2):121-123.

[4]胡俊荣.中国学术会议文献通报与美国科技会议录索引比较研究[J].江苏图书馆学报,1998,(20):3-6.

[5]胡兵,王昌度,等.从SCI看我国科技论文的国际地位[J].图书与情报,2001,(1):27-29.

[6]董亚杰,赵世华,孙丽川.从SCI论文统计分析看学校科研水平及发展[J].图书馆理论与实践,2005(4):52-53.

数据信息论文范文第2篇

关键词:信息论与编码;教学改革;教学方法

中图分类号:G424 文献标志码:A 文章编号:1674-9324(2016)19-0085-02

一、引言

信息论与编码是南通大学电子信息类本科三年级的一门专业必修课,主要是研究信息传输的有效性和可靠性的一门学科[1,2]。该课程是通信技术与概率论、随机过程、数理统计等学科相互融合而发展起来的一门交叉学科[3]。该课程要求学生掌握线性代数、微积分等基本的数学工具,还需要学生对通信原理等课程有较深刻的认识。个人计算机的普及和通信专业软件的日益成熟,使得该课程的实验教学成为可能。可见,该课程理论性强、内容多,与先修课程有密切的关系。针对该课程的变化与最新发展,为了提高教学效果,笔者在理论教学、实验教学、科研联系教学、考核方式等多个方面进行了改革。

二、教材选择

根据学校的层次、专业特点和教学对象选择一本合适的教材是教学改革的一个基本方面。目前,有关信息论与编码这一课程的教材非常多。如王育民编著的《信息论与编码理论》以及Cover著写的《信息论基础》的中译本和英文影印本。随着网络技术的迅猛发展,最近出现了一些新教材,如仇佩亮编著的《多用户信息论》、Yeung编写的《信息论基础》和Gamal编著的《网络信息论》。这些教材的知识体系结构和侧重点各有不同,而且差别很大。根据信息论与编码专业必修课的性质,按照强调基础理论学习,突出对所学理论知识灵活应用的原则,我校选用了曹雪虹主编的《信息论与编码》作为教材。该教材吸收了国内外众多现有教材的精华,注重基本概念,突出基础理论,强调应用。而且,该教材难度适中,文字通俗易懂,用较多的例题和图示阐述了基本概念、基础理论和应用,适合作为我校信息工程和通信工程等专业的教材。

三、课程内容改革

教学内容改革是课程改革的核心。根据我校相关专业的实际教学情况和效果,对信息论与编码教学内容改革有如下的考虑。

(一)注重教学内容的承上启下

教师在该课程教学中,要强调已学专业基础课中的信号与系统、数字信号处理和通信原理,分别解决点对点通信系统中关于信源和信道的一些具体问题,而信息论与编码将从更抽象的层面看待整个通信系统,为通信学科的发展指明了方向。正如著名通信理论家Viterbi所说,如果把现代通信技术比喻成飞船,则晶体管是它的引擎,而信息论是它的方向盘[4]。注重该课程与已学课程融合的同时,还要突出该课程在后续课程学习中的作用,指出该课程是数据压缩技术、语音信号处理、图像处理等课程的理论基础。另外,教学过程中,还要适当介绍信息论的最新进展和研究热点,以激发学生的学习兴趣。

(二)教学内容的模块化

教学过程中,将信息论与编码的教学内容看作一个有机整体,遵循注重结论表述的通俗易懂、突出理论严密和精美的原则,把课程内容分为信息度量、香农三大定理、编码三大块内容。信息度量描述了将抽象信息量化的方法,为学习香农三大定理提供了理论基础。随后,结合学生已学课程,介绍香农三大定理的意义,通俗形象地表述香农三大定理,指出香农三大定理是信源编码和信道编码技术的理论基础。

编码理论包含信源编码和纠错码两大块内容。其中信源编码部分主要包括香农编码、费诺编码、霍夫曼编码、游程编码、算术编码、变换编码等,是香农第一和第三定理的应用。纠错码包含线性分组码、循环码、卷积码、TCM码和Turbo码等,是香农第二定理的经典应用。讲授这部分内容时,主要向学生介绍二元编码,以简代繁,让学生能够快捷掌握实用的编码技术。

(三)融合最新研究成果,突出实践和应用

授课过程中,一方面,注意引导学生用所学到的理论解释先前所学专业基础课的部分经典内容和结论,突出所学课程的应用功能。例如用数据处理不等式解释为什么信号经过处理会丢失部分信息,用限平均功率最大熵定理解释为什么总假设信道噪声是高斯白噪声,用信息论的基本概念导出香农信道容量公式等。另一方面,随着信息和通信技术的进步和发展,在讲课过程中,需要向学生讲授LDPC码、协作通信、MIMO通信系统和网络编码等最新出现的通信和编码技术,以及网络信息论的最新理论成果。

许多高校在讲授信息论与编码这门课时,往往注重理论教学,重视向学生讲解抽象的概念、理论和对重要结论的逻辑推理,而忽略了这门课是理论和实践紧密结合的课程,对实验教学的关注非常有限,学生很难将学到的理论知识与实际相结合[5]。课程改革后,为该课程确定了四个实验,分别是信息熵计算、信道容量计算、霍夫曼编码实验、CRC校验编码实验。

四、教学方式改革

教学方式改革的目的就是要激发学生的学习热情和学习兴趣,让学生成为教学的主体,信息论与编码的教学方式的改革包含以下几个方面。

(一)传统板书与多媒体结合

信息论与编码这一课程的内容多、理论性强,许多结论需严格的推理证明。因此,课程教学中需要把多媒体教学信息量大和传统板书易于展示复杂理论推导、表现力强、便于师生交流的优点相结合。这样,生动形象的多媒体教学保证了课堂的信息量,而严格的推理证明可以让学生深刻理解相关结论,领悟理论的精要,掌握课程的重点和难点。

(二)内容讲述形象化,逻辑推理严格化

信息论与编码是运用数学工具解决通信中问题的典范。课改过程中,讲授该课程时,做到语言通俗易懂;表述重要结论时,尽量形象生动。例如,讲授香农第二定理时,先指出香农第二定理所给出的结论是信息传输是否出错,取决于信道容量和信息率之间的关系,而不是数据传输的次数,这和人们直观认识不一样。在学生对香农第二定理有了感性认识后,给出香农第二定理严格的推理证明,让学生感受理论的严密和精美。

(三)灵活运用多种教学方法

综合运用多种教学方法,不仅能将理论知识融会贯通,而且可以引导学生进行主动的探究性学习,还可以引导学生主动思考,积极参加讨论,提高学习效率及综合运用所学知识解决实际问题的能力[6]。

在信息论与编码课程改革过程中,笔者根据学生所在系别和专业的不同,综合运用案例式教学、研究型教学、启发式教学、演示练习式教学、互动讨论教学等多种教学方法,将这些教学方法贯穿于该课程教学的始终。并在该课程教学中引入实验教学,使用Matlab仿真软件搭建通信系统模型,实现理论和实践的有机结合。

五、课程考核方式改革

课程改革后,采用的考核方式比传统考核方式更加全面、细致、科学。学生的成绩将由平时作业、课堂练习、学习报告、课堂讨论发言、实验和期末考试几个部分组成。

布置适量的课后作业可以让学生及时巩固所学知识,深化对基本概念和基本理论的理解,掌握解决问题的基本方法,提升学生解决问题的能力。同时,能激发学生探索发现解决问题的方法,通过一题多解、一题巧解能够把学生的发散性思维和聚敛思维结合起来。

针对课程的典型例题和解决问题的典型方法,教学过程中进行精讲和演示,尔后选择合适的习题,让学生做课堂小测试。这种小测试是根据“90后”学生喜欢看手机、注意力容易分散的特点设计的,小测试可提高学生的注意力,增强教师对课堂气氛的调动和掌控,同时可让学生及时巩固所学理论和方法。

要求学生组成3~4人的学习小组,围绕与该课程紧密相关的抽象概念、基本理论展开讨论,让学生经过讨论对课程有更全面的认识。每个学习小组的学生一起完成实验,并选择和该课程密切相关的科研课题,阅读与所选课题密切相关的书籍和论文,合作书写一份不少于3000字的手写报告,要求参考文献不少于10篇。

该课程最终需要闭卷考试,教学改革后,我们更新了题库的部分题目,增加了近年来出现的新题型。同时,各任课教师统一了考试要点,重点检测学生对核心内容的理解和掌握,避免了偏题和怪题的出现,有效检验了学生对课程内容掌握情况,真实反映了学生对课程的理解程度。

六、结语

该文分析了信息论与编码课程最新的发展和变化趋势,根据课程组各位任课教师多年的教学心得,对课程进行了教学改革,因地制宜地调整了教学大纲,重新对课程教学进行了整体设计,优化了教学内容,增加了实验教学环节,综合运用多种教学方法,提高课程的趣味性和应用性,促使学生积极、主动地学习该课程。

参考文献:

[1]曹雪虹,张宗橙.信息论与编码[M].北京:清华大学出版社,2009.

[2]Cover M Thomas,Joy A Thomas. Elements of Information Theory[M].北京:清华大学出版社,2007.

[3]谢正光,包志华,章国安.概率统计在信息论与编码教学中的应用[J].南通大学学报,2008,25(4):88-90.

[4]仇佩亮.信息论与编码[M].北京:高等教育出版社,2011.

[5]曹红梅,张涛.仿真实验在信息论与编码课程中的应用[J].实验室科学,2014,17(4):97-100.

数据信息论文范文第3篇

关键词:信息熵;风险;检验;国际贸易

中图分类号:U692.7 文献标识码:A 文章编号:1006―7973(2016)11-0024-03

信息熵是20世纪就已经广泛应用的理论和方法,但用它来度量国际贸易中大宗商品的短重风险尚未发现有相关文献资料。本论文是江苏出入境检验检疫局课题“基于承运船舶引起的重量鉴定风险(分析及控制)防范体系研究”(No.2015KJ67)的研究成果。该项目于2015年获得立项。

通过本论文的研究,建立一个基于信息熵的承运船舶短重风险度量模型,对基于承运船舶引起的短重风险进行分析,指导相关企业运用风险分析的基本原理,开展承运船舶风险分析,合理选择承运船舶,尽量避免因承运船舶选择不当造成的经济损失;同时探索建立基于大数据分析的承运船舶短重风险预警体系,对船舶重大短重风险隐患做到早发现、早研判、早预警、早处置。从而形成一套体系完整、结构科学、应对有效的航运船舶风险防范体系,提高监管效率,提升工作的主动性、针对性和有效性,更好的服务对外贸易的发展。

1 短重风险与风险度量

1.1 风险的概念

对“风险”这一概念,各界一直以来未达成一致,但普遍认可风险的定义包含了两个共同点:不确定性和损失。美国学者海恩斯在其1895年出版的著作《Risk as an Economic Factor》中,最早提出“风险”的概念。20世纪20年代初,美国经济学家芝加哥学派创始人富兰克・奈特(Frank Hyneman Knight)把风险与不确定性做了明确区分,指出风险的特征是概率估计的可靠性。1952年,美国学者格拉尔在其调查报告《费用控制的新时期――风险管理》中正式提出并使用“风险管理”一词。1964年,美国教授威廉姆斯和汉斯把人的主观因素引入对风险的分析上。此后,欧美各国对风险管理的研究逐步趋向系统化和专业化,使风险管理逐步成为一门独立的学科。

2009年11月,ISO各成员国的标准组织投票通过ISO 31000《风险管理―风险管理原则与实施指南》,对“风险”的定义为:“不确定性对目标的影响”。同年,我国了GB/T 23649―2009 《风险术语》,其中对“风险”定义为:“某一事件发生的概率和其后果的组合”。

根据上述文献资料对风险的定义我们可以引申出短重风险的定义:

(1)承运船舶或其他状况的不确定性对货物重量的影响。

(2)货物短重发生的概率和其后果的组合。

1.2 承运船舶风险因子的构成

目前,对承运船舶的风险研究主要是安全性的研究,本论文在借鉴国内外研究成果的基础上,结合水尺鉴重的实际情况,构建承运船舶短重风险度量制标。由承运船舶带来的短重风险主要有四个方面:船型、船舶的计量条件、船舶的计量资料以及其他因素。如图所示:

承运船舶短重风险是一个复杂系统,按照系统递阶分解原则,承运船舶短重风险度量指标体系也应该是一个分层的树状结构。即每层指标即是上层指标的子类指标,又是下层指标的父类指标。最上层的指标即为衡量承运船舶短重风险的指数。如表1所示:

2 熵与信息熵

“熵”(entropy)概念从首次提出到现在广泛应用已有160多年的历史。熵的概念和规律以及其他推论和有关定理构成了熵理论,熵定律普遍被认为是自然界的最高定律。爱因斯坦(Albert Einstein)说:“熵理论对于整个自然科学来说是第一法则。”但是运用熵理论来度量承运船舶短重风险,尚未发现有任何文献报道。因此,本论文用信息熵的方法来度量承运船舶短重风险是一次创新和尝试。

2.1 熵

1865年鲁道夫・尤利乌斯・埃马努埃尔・克劳修斯(Rudolf Julius Emanuel Clausius)在他的论文《力学的热理论的主要方程之便于应用的形式》中首次提出了熵的概念,并将熵定义为“系统吸收的热量与恒温热源温度之比”,称为热力学熵或热温熵或Clausius熵,被用来度量系统中能量的衰竭程度,即热量不可转变为功的程度。

1877年,物理学家玻尔兹曼将热力学熵概念做了进一步推广和深入分析,并把熵定义为一种特殊状态的概率:原子聚集方式的数量。熵可以定义为玻尔兹曼常数乘以系统分子的状态数的对数值:

S=klnΩ;K是比例常数,现在称为玻尔兹曼常数。

2.2 信息熵

1948年,美国数学家、信息论的创始人香农(Shannon)在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。并应用概率论知识和逻辑方法推导出了信息量的计算公式,称为信息熵或Shannon熵。信息熵建立了关于不确定性的一种定量化的度量,奠定了现代信息论的理论基础。熵在信息论中的定义如下:

(2)船舶的计量条件和船况越好,信息熵就越低;反之,信息熵就越高。所以,信息熵也可以说是船舶计量条件和船况有序化程度的一个度量。

2.3 基于信息熵的风U定量计算

假设某一承运船舶存在n种可能的不同风险指标,且Pi(i=1,2,…,n)表示每一种船舶风险指标出现的概率,当信息熵取得最大值时,对应的一组风险指标出现的概率占有绝对优势,在这个基础之上,就可以为信息熵表示各个风险因素的权值提供理论依据。而且当Pi相等时,熵值达到最大值,对应的风险因素对系承运船舶影响的不确定性越大。根据这个原理,可由信息熵来计算各个风险因素的权值。

假设一艘船具备如下4个风险指标①沙滩船,②使用设计图代替完工图,③水尺标记尺寸不符合要求,④船舶老旧。每一种风险因素都对短重有两种可能的影响:正相关和负相关,共有8种可能,不确定性为ln8。对每一种风险指标来说当两种可能性概率相同时,即Pi=0.5时熵最大。

根据风险因素的熵值计算公式我们可以推出两个结论:

(1)熵值越大,短重风险越高,规避风险的成本越高。

(2)船舶状态和计量条件越好,熵值就低,反之,船舶状态和计量条件越差,熵值就越高。

2.4 确定风险等级

根据前文计算出来的风险值,结合风险等级定义表定义风险所属范围,根据计算出来的风险值是否属于某风险区间来判断该部分风险范围及类别,例如某承运船舶短重风险值为0.6,则可将该船舶承运货物短重风险定义为较大,以此反映客观情况。

3 检验策略

3.1 检验策略

3.1.1 根据不同的风险等级采取不同的检验策略

对船舶进行评估并分级,包括风险识别,风险分析,风险评价等三个步骤。

(1)对极高风险和高风险的船舶建议贸易商尽量避免租用这类船舶承运贵重散货。如果发现此类承运船舶,建议贸易双方更改计重方式。

(2)对于中风险承运船舶,建议贸易商投保短量险,减少因短重带来的损失。在对此类承运船舶实施重量检验是应提高警惕。

(3)对于低风险船舶贸易商可以放心租用。在实施重量检验是也要注意,特别是拼装船。

3.1.2 建立基于大数据分析的风险预警体系

对于已发现的高风险船舶建立大数据档案并在检验检疫部门之间实现信息共享。同时,按照所运载货物的实际短重重量进行风险评估或分级,当遇到同一船舶再次进行水尺计重时,鉴定人员可以利用风险预警数据,在计算前重点核查档案中记录的问题是否得到了改正。这样一来既规避了潜在的风险,又提高了工作效率。

3.1.3 在实际工作中加强对船舶计量条件的审核

根据信息熵的原理,承运船舶的设计建造和计量条件越差信息熵越高,风险越高,规避风险所需的信息量也就越高。因此,在检验中应当尽可能多的收集资料和信息(如制表说明、船舶的总布置图等)来综合地进行判断。尤其是对于图表上所示的计算所需信息(如水尺标记位置、水舱高度等)应该与实际观测或测量得到的数据进行对比,这样就可以及时发现潜在的问题而不至于造成工作上的失误。

参考文献:

[1]国际标准化组织. ISO31000:200险管理-原则与实施指南中文版 [S] . 北京: 中国标准出版社, 2009,21~22.

[2] 中华人民共和国国家标准. GB/T 23649―2009 风险术语 [S]. 北京: 中国标准出版社, 2009,4~6.

[3] 李锐锋.试析热力学第二定律的革命意义.科学技术与辩证法,1999,16(3):27~30.

[4] 王九云, 张秀.熵的定义式和系综概率分布函数关系的探讨[J]. 咸宁学院学报, 2005, 25(6),41.

[5] 刘连寿.理论物理基础教程[M].北京:高等教育出版社,2003,537.

[6]姜茸,X鸿澎.基于信息熵的国家经济安全风险度量与预警 [M]. 北京:经济管理出版社,2015.66~67.

数据信息论文范文第4篇

关键词:Bayes理论随机变量土木工程

中图分类号:S969.1 文献标识码:A 文章编号:

1 引言

概率推理是对随机现象或者不确定信息作出推理和决策,概率推理既是概率学和逻辑学的研究对象,也是心理学的研究对象,但研究的角度是不同的[[[] 陈开明.概率论与数理统计[M].上海:上海科学技术出版社,1988.]]。贝叶斯理论的问题是条件概率问题,对这个领域的深入研究推动了概率信息认知加工过程的进程,同时对人们学习和判断决策有重要的理论意义和实际意义。

随着计算机网络和数据库技术的普遍应用,数据收集呈现高速化、便捷化发展,计算机科学家与工程师如何从堆积如山的数据中提取合理有效的结果成为一项严峻的挑战。为了适应这一迫切需求,数据挖掘作为理论性与应用性结合最为密切的一个研究领域,迅速大地发展起来。Bayes理论在数据挖掘中获得成功的应用。对Bayes理论研究最大的动力就是它在实际应用中的巨大作用和潜力。目前。Bayes理论已经成功地应用到智能用户接口、医学诊断、武器制导、信息滤波、经济预测、车辆自动导航等领域,也在土木工程中可靠性工程设计、结构疲劳分析、岩体工程、市场预测、风险决策等方面做出了突出贡献。

2Bayes基本原理

贝叶斯理论起源于英国学者马斯·贝叶斯(Thomas Bayes,1702-1761)死后发表的一篇论文“论有关机遇问题的求解”(1763年发表)。在这篇论文中,他提出了著名的贝叶斯公式和一种归纳推理方法。著名的数学家皮埃尔·西蒙·拉普拉斯[[[] 于忠义.谁开创了贝叶斯学派? [J].统计与信息论坛,2008.]](Laplace,Pierre-Simon,1748-1827)用贝叶斯提出的方法,导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。

对于一个连续型随机变量,假设其概率密度函数为,是未知参数。根据相关知识和经验资料,可以确定的概率密度函数,记为,称为未知参数的先验分布。

在实际的观测中对于获得的随机变量的一组观测数据,,,,,构成了的一个随机样本,观测数据是相互独立且各自服从正态分布。因此,可以得出它们的联合概率密度函数为:

(1)

记向量,则(1)式可改写为:

(1a)

现在通过的这一组样本,结合的先验分布,重新求的概率分布。根据Bayes定理,

由条件概率的公式,得:

(2)

记: (3)

(4)

(5)

则式(2)可表示为:

(2a)

显然,为与参数无关的常数;称为未知参数的似然函数,它包含了实际中的观测数据信息;同时,称为未知参数的后验分布,它所包含的信息是通过实际中的观测数据信息对相关知识和经验资料的先验信息进行更新后得到的。

如果将先验信息理解为主观信息,而似然函数包含的信息理解为客观信息,由式(2a)可以看出,后验信息(分布)是主观信息和客观信息的综合既可避免只使用先验信息带来的主观偏见和缺乏样本信息时的大量盲目搜索与计算,也可避免只使用后验信息带来的客观影响。因此,Bayes方法适用于具有概率特征的数据采集和知识发现问题,尤其是样本难以取得或代价昂贵的问题。合理准确地确定先验分布是Bayes方法进行有效学习的关键问题。

3 Bayes理论在土木工程中的广泛应用

3.1 Bayes理论在结构可靠度方面的应用

工程可靠度方面,Bayes方法已经得到了广泛的应用。用贝叶斯方法处理一些复杂的可靠性分析问题,往往比用频率方法更简便有效,如美国科学家运用贝叶斯方法将MX导弹的发射试验次数从原来的36次减少到25次,而可靠性却从72%提高到93%,节约费用2.5亿美元[[[] 余强、姚宗静.Bayes统计的起源、发展和若干应用[J].考试周刊,2010.]]。尤其在试验费用大,数据量少的情况下,更需要尽可能的搜集、充分利用各种定量或定性的先验信息,通过正常的逻辑思维推导出参数的先验分布,成为验后样本量不足的合理的补充,从而解决经典方法不能解决的许多问题。实际工程中,在做实验之前,我们根据进行过的同类实验或者类似实验以及经过验证的理论对实验的结果我们可以有个粗略的估计或许推论,换句话说,我们利用以往的经验和本次试验数据相结合以共同做出决断,这就是经验Bayes方法的核心[[[] 董聪.可靠性工程中的经验Bayes方法[D].北京:北京航空航天大学,1995.]]。李福龙利用Bayes估计对正态-正态结构串联系统的可靠度置信限作出了研究[[[] 李福龙,魏永德 正态-正态结构串联系统可靠度的Bayes估计[J].数学研究与评论,1995。]],吕大刚利用Bayes统计理论,研究考虑统计与模型不确定性的结构可靠度分析方法,给出了考虑统计与模型不确定性的各种可靠性测度,分析了统计与模型不确定性对结构可靠度的影响[[[]吕大刚 宋鹏彦等 考虑统计与模型不确定性的结构可靠度分析方法[J].哈尔滨工业大学学报,2011. ]]。

3.2 Bayes理论在结构疲劳研究的应用

在结构疲劳试验方面,由于疲劳试验费时费力,结构疲劳试验只可能是小样本试验,因样本容量小,所给的信息有限,给统计推断带来一定的困难[[[] 张家新,王自力.贝叶斯方法在船体结构疲劳分析中的应用[J].造船技术,2000]]。Bayes方法综合利用总体信息、样本信息及经验信息来推断后验分布,从而减小了小样本估计的误差。将其用在结构疲劳统计分析可获得比传统方法更可靠更安全的结果。Bayes方法既可用于疲劳分布模型的确定,又可用于疲劳设计曲线的建立,通过Bayes方法建立的疲劳设计曲线比传统疲劳设计曲线更安全可靠,因为它既考虑了统计不确定性影响,又合理了越出数据问题,适合工程应用。施剑玮结合Bayes估计理论和加速寿命试验理论,提出了一个估计构件疲劳极限的极小样本方法,计算方便,计算结果与传统方法确定的疲劳极限的结果符合较好[[[] 施剑玮.估计构件疲劳极限的Bayes极小样本方法[J].机械强度,2007,29(2).]]。王优强推导出在只有小样本数据情况下,利用模糊Bayes理论方法确定连续油管疲劳寿命概率分布模型[[[] 王优强、张嗣伟.用模糊Bayes方法确定连续油管的疲劳寿命分布[J].石油机械,1999.]]。

3.3 Bayes理论在健康检测方面的应用

结构由于设计、施工和运营期间环境作用等原因或多或少都存在缺陷,这些缺陷称为损伤。结构发生损伤以后将严重影响结构的承载能力及其耐久性,甚至发生严重的工程事故,因此对已建成的结构和设施采用有效的手段监测和评定其安全状况、修复和控制损伤是十分必要的[[[] 刘涛,李爱群等.基于数据融合的结构损伤识别方法研究[J].工程力学.2008.]]。结构损伤识别方法主要是传统的结构损伤检测方法、基于振动的结构损伤识别方法及基于统计推理的在线结构损伤识别方法。基于统计推理的在线结构损伤识别方法正是贝叶斯方法在损伤识别中的具体应用。Bayes识别方法的基本思想是把所要估计的参数看作是随机变量,然后设法通过观测与该参数有关联的其他变量,以此来推断这个参数。

3.4 Bayes理论在岩土工程领域的应用

近年来Bayes方法在岩体工程中也得到了广泛的应用。由于岩体本身具有很大的变异性及人们对岩体认识的局限性,岩体工程的设计和施工具有不确定性。1983年初,在同济大学召开了“概率论与统计学在岩土工程中的应用”专题学术讨论会,推动了岩土工程可靠度理论的研究;同年的“攀钢石灰石边坡可靠度与经济分析研究”课题是我国第一个在岩体可靠度领域的部级研究成果;张广文利用先验分布和样本统计推导出岩体力学参数后验分布,在小样本下,这种统计方法具有优良性、无偏性、有效性,且推断参数的概率分布的误差也较小[[[] 张广文.土石坝筑坝材料基本参数概率统计与相关分析[J].水利水电技术,1994,40(9)]]。光耀华应用Bayes估计来评定岩石抗剪参数的可靠性,克服了岩土工程试验样本少,参数可靠性低的困难[[[] 光耀华.岩石抗剪强度指标的概率分析[J].岩石力学与工程学报,1994,13(4)]]。文畅平将Bayes判别分析方法应用于岩体质量等级判别与分类中,建立了岩体质量综合评判的Bayes判别分析模型,模型选用岩石质量指标、完整性系数、单轴饱和抗压强度、纵波波速、弹性抗力系数和结构面摩擦因数等6个指标作为判别因子[[[] 文畅平.岩体质量分级的Bayes判别分析方法[J].煤炭学报,2008]]。

4 Bayes理论的发展-Bayes动态预测模型理论

Bayes动态预测模型理论是20世纪70年展起来的一套新的时间序列分析方法,是Bayes统计的思想和动态模型的结合,是一种针对过程的Bayes预测方法,正好适合结构性能退化是一个长期过程的特点。所谓的动态模型是由两个方程确定的系统,这个系统描述:(1)过程的观测值如何随机地依赖于当前的状态参数;(2)状态参数如何随时间变化,表示了系统内部的动态变化和随机扰动[[[] 齐静.动态Poisson模型及其贝叶斯预测[D].中山大学,2005]]。在动态模型中,Bayes预测的递推方法如下图所示。

Bayes预测模型由于利用了经验和历史资料的先验信息,与普通回归预测模型相比,有明显的优越性,因此在解决这类相关问题时,可以适用与多个领域。

5 结论

本文介绍了Bayes理论的基本观点和它的研究现状与意义,并就它在现在工程领域的工程可靠度、结构疲劳试验、结构损伤识别方法、岩体工程几个方面做了概括总结,当然它在其他方面也有广泛的应用,需要进行更深入的探索和完善。

参考文献

[1] 陈开明.概率论与数理统计[M].上海:上海科学技术出版社,1988.

[2] 于忠义.谁开创了贝叶斯学派? [J].统计与信息论坛,2008.

[3] 余强、姚宗静.Bayes统计的起源、发展和若干应用[J].考试周刊,2010.

[4] 董聪.可靠性工程中的经验Bayes方法[D].北京:北京航空航天大学,1995.

[5] 李福龙,魏永德 正态-正态结构串联系统可靠度的Bayes估计[J].数学研究与评论,1995。

[6] 吕大刚 宋鹏彦等 考虑统计与模型不确定性的结构可靠度分析方法[J].哈尔滨工业大学学报,2011.

[7] 张家新,王自力.贝叶斯方法在船体结构疲劳分析中的应用[J].造船技术,2000

[8] 施剑玮.估计构件疲劳极限的Bayes极小样本方法[J].机械强度,2007,29(2).

[9] 王优强、张嗣伟.用模糊Bayes方法确定连续油管的疲劳寿命分布[J].石油机械,1999.

[10] 刘涛,李爱群等.基于数据融合的结构损伤识别方法研究[J].工程力学.2008.

[11] 张广文.土石坝筑坝材料基本参数概率统计与相关分析[J].水利水电技术,1994,40(9)

[12] 光耀华.岩石抗剪强度指标的概率分析[J].岩石力学与工程学报,1994,13(4)

[13] 文畅平.岩体质量分级的Bayes判别分析方法[J].煤炭学报,2008

数据信息论文范文第5篇

Autonomy非结构化视频搜索技术是信息论与概率论的巧妙结合,实现了计算机对文本、网页、语音和视频的自动分析和处理。

非结构化视频搜索的核心技术来源于英国“Autonomy”,它是全球最为著名的非结构化信息智能处理公司。 非结构化视频搜索的领先技术实现了计算机对文本、网页、电子邮件、语音、视频、文档和个性档案的自动分析和处理。

视频处理亮点:

建立实时音频索引

音频实时索引是Autonomy视频搜索技术基础构架中的重要模块,并具有良好的扩展性,有三个独特的音频处理功能,可从音频信号中自动生成关键字、辨别说话者和建立音频分类索引,无论信号是来自卫星、磁带录像机、正在播出的节目或直接来自于麦克风,音频辨识模块都可以将视频中的音频部分实时转换为可搜索的文字内容。到目前为止,Autonomy语音识别模块支持的语言语种包括英文、法文、阿拉伯语、德语、西班牙语、中文、意大利语、希腊语、俄语等数十种。

视频编码

Autonomy能够从录像带、卫星或者数字文件中获取视频,也可以从正在播出的信号源中截取。利用SmartEncode实时处理方法,将视频内容制作成完整的视频索引。训练有素的编辑人员通过整理和丰富视频索引,使网站用户的搜索结果更准确,更易于浏览。可以选择使用最流行的流式视频格式,如RealVideo、QuickTime、Windows Media等。

建立实时视频索引

Autonomy使用先进的技术“捕捉、听取和阅读”模拟视频信号或者数字信号,建立信息丰富的视频数据索引。VideoLogger具有特殊的智能,能够寻找视频内容中的变化,分割视频材料,生成可供浏览的关联帧,还能从视频信号中摘取字母文字和屏幕上的插播文字。

VideoLogger软件能够同时辨别视频中的内容和屏幕上的文字与数字。配合音频索引模块,您可以及时准确地搜索、取出您所需要的视频片断。

即时裁片

Autonomy视频技术能在索引的任何一个切点直接将视频传输到用户的桌面。用户可使用标准的互联网浏览器迅速搜索内外网,取出视频内容。

多路控制

ControlCenter可同时控制多路视频采集、音频识别模块的工作,通过控制中心,管理员可灵活设置多种策略,根据不同视频采集需求,进行统筹管理。每路采集均可通过差异化配置文件来满足不断变化的用户需求。

特定图像识别

对相应的新闻节目进行自动标引的同时,能自动检测出预定义的播音员头像,系统自动将该视频标引出。

视频的自动标引

自动对语音识别模块返回的中文语音识别定的词语(如人名、地名、组织名称等等)以相应的标记进行标注。

技术架构及模块化设计

1.视频处理部分

视频处理部分包括一整套完整的后台视频处理技术,从视频的采集、编码转换、自动数字化、视频抽帧、自动标引、语音识别、视频索引等,全部实现自动化流程。

整套系统主要由Encoder、Stream Media服务器、Video Logger、Control Center、Video Server和Autonomy IDOL Server(核心引擎)等几个模块组成,此外Audio Indexer为Video Logger提供语音识别等音频信息处理与分析功能。

每个模块的具体功能如下:

Video Server: 存储与管理处理完成的视频,提供相应的界面或者API供最终用户使用;

VideoLogger: 处理音视频的核心部件,实现对视频的自动采集、标引、关键帧抽取、特定图像识别等,与ControlCenter交互发送音频给AudioIndexer,同时合成结果;

图1 视频处理系统架构图

图2 搜索引擎系统架构图

图3 IDOL技术框架示意图

图4 分布式模块结构图

图5 按贝叶斯概率论和申农信息论进行搜索

Control Center: 控制多个VideoLoggers索引视频的进程,同时实现日程和管理等功能;

Audio Indexer: 中文语音识别的核心部件。

2.搜索引擎部分

核心搜索引擎部分是IDOL Server,它是一个信息智能操作层,能自动把各个信息源和各种文件格式统一在一个智能的信息操作平台下,这个智能信息操作平台可以提供多种信息操作的功能,比如自动链接、文章分类、内容概括和信息聚类等。在这种情况下,用户只需要发送一次请求,就可以从不同的系统中得到相应的结果。

在IDOL(信息智能操作层)下,Autonomy的产品是围绕着核心技术一层开发的模块化的部件。

(1)动态推理引擎DRE

动态推理引擎DRE(Dynamic Reasoning Engine)是最核心的服务器产品部件,它是一个扩展性极强、多线程的核心引擎。概念分析、内容提取、概念模式识别和相关度计算等关键工作都是由动态推理引擎来完成的。

当配置设定好以后,动态推理引擎将自动地运行,接收和处理新的信息,并向其它软件部件通过HTTP(XML) 来提供功能服务。DRE是一个多操作系统的引擎,可以在多种硬件和操作系统环境下最佳化地运行,支持从Intel PC使用的Windows,到多处理器终端运行的Unix。

DRE使用HTTP/XML来与所有其它软件部件沟通联系。这样就允许在局域网和因特网上大量分布式地安装实施动态推理引擎DRE。

(2)分类服务器

在提供DRE的概念理解功能外,Autonomy平台中第二个核心部件是分类服务器(ClassificationServer)。分类服务器负责提供诸如自动分类和自动信息群识别等功能。

自动信息群识别: 分类服务器可以管理海量的信息和用户档案,按内容把它们自动分成有条理的信息群。信息群识别使用的是一项自动凝聚的技术,把大量文章按概念划分。

自动分类: 分类服务器可以把新接收到的文章按相关度自动分门别类 ,然后可以按类别进行自动标引、发送和存放。

自动结构化标引生成: 分类服务器可以管理海量的信息和用户档案,按内容把它们自动分成有条理的信息群,然后为这些信息群生成标引名称。

(3)用户管理服务器

用户管理服务器(UAServer)是Autonomy平台中的第三个核心部件。用户管理服务器提供用户自动建档、档案搜寻、档案分析和档案实时自动更新等功能。

(4)分布式模块

分布式模块主要包含三个主要部件:

分布式访问控制器DAH (Distri-buted Action Handler): 每个分布式访问控制器可以与多个动态推理引擎DRE连接,DAH还可以与其它DAH连接。这些连接都使用HTTP并遵循XML标准。DAH可以提供更可靠的功能服务、更好的容灾能力和迅速的反应能力,打破地域界限,提高系统的可伸展性和灵活性。

分布式索引控制器DIH (Distri-buted Index Handler): 每个DIH可以与多个连接器与动态推理引擎服务器连接,这些连接都使用HTTP并遵循XML标准。

分布式管理控制器: DiSH (Distri-buted Service Handler): 控制和监视整个Autonomy系统,使所有系统中服务器的状态一目了然。

(5)应用软件及Web服务

在“信息智能操作层”之上Autonomy提供各种应用软件。比如搜索引擎、企业电子门户、用户关系管理系统、知识管理系统和电子商务系统。这些应用软件与“信息智能操作层”的关系也是构架在HTTP和XML网络服务标准之上的。

Autonomy还提供简单易用并且功能强大的建设开发工具(API/SDK)。合作伙伴可以选择自己的开发环境(C/C++、Java、VB、ActiveX、COM、DCOM、HTTP、JSP和ASP等),通过XML网络服务,来迅速地开发设计出最符合用户需求的应用软件和用户界面。

信息论与概率论的巧妙结合

众所周知,视频搜索不同于常见的全文检索,由于富媒体格式的特殊性,长久以来,人们仅仅是通过关键词来检索音视频文件名和标引的元数据,无法达到对富媒体的深层次检索应用。

Autonomy根据信息论和概率论,巧妙地运用概念匹配技术,实现视频搜索功能。其视频搜索技术打破了传统视频检索系统仅仅提供文件名和元数据搜索的瓶颈,允许用户使用关键词、句子或一段文字作为检索条件,检索所有电视节目、网络博客和网络视频等元数据,检索结果准确定位到相应的视频位置时间点,在提供高速播放的同时自动展示内容相关的各种音视频关联结果。

Autonomy搜索技术的概率论基础可以追溯到托马斯.贝叶斯时代,贝叶斯的论文主要是计算多个变量之间的概率关系以及决定一个变量影响其他变量的范围。

一个典型问题就是判断一个文档与指定查询或特定概念的相关性。贝叶斯概率论可通过判断该文档与已知细节之间的关联,从而帮助我们的计算。作为“未来的”结果分布(适用于判断相关性)可更有效地被“已产生的”已知模型和相似性所利用。

对于文本的指定查询来讲,该理论的延伸比相关性信息更加深入。适应性概论概念模型(APCM)可分析文档中的特性之间的关系,从而发现新的概念和文档,并确定与文档集紧密关联的概念,从而对新文档准确分类。

传统的统计学论点认为: 如果一枚硬币被抛100次并且每次都是正面朝上,则下次被抛出后背面朝上的几率仍然相同。而贝叶斯方法认为: 100次连续正面朝上证明该硬币不均衡或者两面都是正面。用相似方法,被用户认为与特定相关的文档的知识可用来判断未来文档的相关性。APCM可使信息“繁衍”。

虽然没有人知道贝叶斯的初衷是什么,但不可否认的是贝叶斯定理已经成为当今统计学概率模型的核心原理。将当代计算能力应用于贝叶斯所倡导的概念中,可快速高效地计算出多个变量之间的关系,使得软件可以自行处理概念。

信息论是所有信息处理系统的数学基础。

从克劳德・申农的创新(《通信数学原理》1949年出版)中我们发现: “信息”在处理中可被作为一种可计算值。

举个最基本的例子(处理单元如文字或短语,彼此相互独立),根据申农的熵(平均信息量)或不确定测量,一个单元平均传送的信息量应该是:

H=-∑pi.log2(pi)

当概率完全相同时该公式计算出最高值,这样,结果文本应该是任意的,如果不是这样,被文本传送的信息将低于最高值,也就是说有冗余。该结果通过更多复杂的数学理论进一步得到扩展,直到有单元关联。

自然语言包含高度的冗余,比如在一个嘈杂的房间里谈话时,虽然对方的有些字没有听到,但丝毫不影响我们理解对方的谈话; 又如阅读报纸时,即使一目十行,我们也可以获取新闻文章的大意。信息论为抽取冗余中的概念提供了一个框架。

Autonomy对概念模型的处理方法基于申农信息论,那就是,通信单元出现的频率越低,它所表达的信息越多。因此,上下文中处理单元出现的越少,它所预示的意思就越多。正是这一理论使得Autonomy 软件可确定文档中最重要的或包含最多信息的概念。

贝叶斯概率论是根据概念之间相互联系而建立其意义模型的数学方法。申农信息论为提取相关文档中最有意义的概念提供一种机制。下面有关企鹅的例子能很好地说明上述方法。

有些时候我们希望了解环境污染对企鹅的影响。传统方法是利用关键字搜索引擎并输入“Penguin(企鹅)”来寻找我们感兴趣的信息。在返回有用信息的同时,这种方法还会带来大量不相干的内容,如出版公司、巧克力饼干、电影“蝙蝠侠与罗宾”等等。但是,在我们的例子中,我们主要关心有关企鹅这种鸟类的内容。一篇包含“海洋”的文章可能与企鹅有关,但是“海洋”会在许多情况下出现,因此很可能其内容是讲述其他东西。不过,如果文章包含“黑色”、“白色”、“不会飞”、“羽毛”、“光滑”和“石油”等词汇,则很可能与企鹅和污染有关。另外,其搜索过程并没有使用“企鹅”一词,而是使用更多较次要的信息,其中任何一项都可以省略而不会明显降低结果的高相关性。总之,Autonomy的方法可以根据主要概念、关键词或数量更多的次要信息理解上下文。

输入一段有关狗的检索条件,Autonomy能够根据输入内容和索引,按照一定相关度提供符合用户要求的搜索结果,而一些无关的结果,如狗粮、卖狗等信息,则根据相关性原则被过滤掉,这样,用户也更容易找到自己关心的结果。

Autonomy搜索技术既支持传统搜索技术,例如关键字、布尔操作、字段检索、逼近式检索和同义词检索等,也支持诸如自然语言搜索、多语种混合检索、联合检索、二次检索、图片及多媒体数据检索等功能:

支持全文检索、组合检索和字段(元数据)检索;

对信息内容进行有效的中文分词处理,支持字词混合索引;

支持词、句和段落进行检索,支持逻辑表达式检索;

支持智能化检索,如自然语言检索,用户可以通过描述性语言进行搜索;

支持按多种方式将结果排序,如按照与检索内容的相关程度排序、按照时间排序和按字母顺序排序等;

支持多种数据格式检索,例如: 图片、多媒体、文本信息等;

二次检索,具有快速的收敛能力,它通过结果中若干最为相关的信息,依据其内容进行二次概念检索,从而实现检索结果的主题钻取;

支持个性检索服务,如专题搜索,个性化信息推送等功能;

支持跨多个数据源的统一搜索。

此外,Autonomy提供高达80种以上的多语言支持,实现在一套系统之上的多语言检索能力。

Autonomy核心算法是基于两种数学模型(概率论和信息论)之上的(非某种语言模型),因此理论上能够处理所有有文字表现形式的语言;同时可以自动识别语言语种,支持多种语言的混合检索。

链接:几家视频搜索网站介绍

新浪视频搜索

ikan.省略/

新浪视频搜索用于搜索网络上的视频文件,可搜索到rmvb、rm、asx、wmv和mpg等各种视频播放格式的文件,以及压缩后的rar、zip等文件。文件类型涉及影视题材、音乐mv、新闻资讯、广告、DV作品和Flash等。

SOSO视频搜索

video.省略/

腾讯旗下的视频搜索网站,分电视视频和网络视频两大类,可以按“热门搜索”、“精彩视频”和“最新视频”等来进行快捷搜索。

北京赛金传媒

www.省略/

特色在于其独特的电视墙展现方式,可以将热点视频与最新视频内容统一展现,一点击即可播放。

Google视频搜索 (英)

video.省略/

数据信息论文范文第6篇

关键词:区域发展;面板数据质量;信息熵;FCM;可行性论证

中图分类号:F224.9

文献标识码:A文章编号:

16721101(2015)02003605

Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.

Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration

在现代信息技术迅猛发展的背景下,越来越多的领域都采用数据驱动的方式进行研究。应运而生的数据技术从传统的统计分析到数据挖掘,再到现今的云计算和大数据都很好的给生产生活带来更多的价值。但是随之而来的数据量度和尺度都变得纷繁复杂,再加上各行业所取观测指标的不同使得数据在单位、量纲和指标含义等客观情况下呈现很大差异性和不确定性,特别是经济数据指标的数值差距过大,因此给数据技术方法本身的可行性以及所得结果的可靠性带来很大挑战。传统的数据预处理中多采用清理、变换和规约等方法来提高数据质量[1,2],在大多数文献中多采用Min-Max标准化[3,4]、Z-score标准化[4]、Decimal scaling小数定标标准化[5]以及Log和Atan函数转化[6]来处理数据,并不着重讨论数据达到的质量程度。但是由于标准化方法的一些理论局限性,容易在处理中降低数据的信息量。所以在研究中如何能够判断标准化后数据信息量的改变程度,这对采用的技术方法本身和后续结果分析将起到重要的作用。本文将尝试探讨数据信息量衡量熵标准,并从理论层面和结合皖北沿淮区域经济发展数据做相应的实证分析。

一、构建熵标准下FCM分类改进模型

(一)信息熵与FCM准备

1.数据质量的信息熵标准

热力学第二定律表明孤立系统中任何变化都不可能减少熵值,1948年Shannon定义通信信号中平均信息量为熵[7],从此熵作为衡量信息量的一种方式被广泛应用。信息熵是数据含载信息程度的一种度量方式,当信息熵越大时表明数据越无序,需要理清数据所需信息就越多,也说明数据的信息量越大。离散随机变量的信息熵定义为自信息的平均值

H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)

其中I(x)为事件的自信息,Ep(x)表示对随机变量的概率取平均运算。其具有熵的非负性、对称性、扩展性和可加性等相关性质。

2.模糊C均值聚类FCM

模糊C均值聚类[8,9](FCM)是由Bezdek在1981年提出的一种模糊分类方法,FCM需要根据类中距和类间距构造分类准则,利用预先给定的分类数C对所给样本点进行分类。即求解规划问题:

minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,

s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;

通过求解上面规划问题,利用得到的隶属矩阵Uik=∑cj=1(dikdjk)-2m-1和聚类中心

Ci=∑nk=1umikXk∑nk=1umik,进行迭代运算得到分类结果。

(二) 熵标准下FCM分类改进模型

由于熵值代表了数据的信息量,而通过衡量信息量可以产生评价策略,陈衍泰等在综合评价方法分类的研究中总结了信息熵方法应用在评价领域的情况[10],张树森等将熵与聚类算法结合提出改进的模糊聚类算法EFC[11],韩宇平等将最大熵原理用于评价区域水资源短缺问题[12],刘红琴等将信息熵应用到能源消费的分配衡量中[13],本文考虑将信息熵引入到数据质量的评价中。

再由于区域发展数据在数值上差距过大,如果仅仅统一进行z-score标准化处理则可能带来信息损失,本文考虑利用FCM方法将数据进行分类标准化,这样也同时带来数据扁平化特征,而由离散最大熵定理[7]可知,数据出现概率越相同,那么数据的信息熵越大。

设n维数据集{xi}ni=1进行z-score标准化后{xi-μσ}ni=1在D段中出现的概率为{Pj(x)}Dj=1,利用FCM对数据分C类后原始数据重新组合变为{xij}i=1,…C,j=1…ni,在每个数据集中表转化得到数据集{xij-μiσ}i=1,…C,j=1…ni在D段中出现的概率为{Qj(x)}Dj=1,当分段数D足够体现数据概率分布时Q(x)比P(x)更加趋近相同概率。利用P(x)对Q(x)的散度D(P//Q)非负特征,有如下推导:

D(P//Q)=∑xP(x)logP(x)Q(x)=

∑xP(x)logP(x)-

∑xP(x)logQ(x)≥0

Hp(x)=-

∑xP(x)logP(x)≤

-∑xP(x)logQ(x)≤-

∑xQ(x)logQ(x)=HQ(x)

因此在分类标准化后的数据信息量比直接标准化的信息量要大。从分类的角度来看,分类后数据标准化数值会产生比整体标准化更多的多样性,从而带来的信息量的增加,而数据信息量的增加也给后续的研究方法提供更好的数据质量。

二、基于区域发展面板数据的实证分析

(一)指标体系构建与数据来源说明

1.区域发展指标体系构建

结合前期工作制定指标体系[14]21,指标的选取原则兼顾经济、生活、环境、社会、特征产业和可持续发展的指标体系,构建一级指标,细化二级指标共选取5个一级指标和69个二级指标如图1所示,并由此构建整体指标模型和各级别体系。

具体指标表现为:(1)在经济发展与产业结构方面:GDP;城镇固定资产投资额;出口总额;进口总额;农业总产值;工业总产值;建筑业乡村从业人员数;交通运输、仓储及邮政业乡村从业人员数;乡村私营企业从业人员数;农、林、牧、渔业乡村从业人员数;乡村个体从业人员数;工业从业人员年平均人数;城镇房地产开发投资额;(2)民生能力与生活质量:职工工资总额;总户数;农民人均纯收入;城乡居民储蓄存款余额;社会消费品零售总额;城镇居民最低生活保障人数;新型农村合作医疗参合率;建成区绿化覆盖率;城市出租汽车数;公共汽(电)车客运总量(市辖区);人口自然增长率;城市公共汽(电)车客运总量;城市每万人拥有公共交通车辆数;城市人口密度;人口密度;基本养老保险基金支出;基本医疗保险参保人数;人均公园绿地面积;(3)政府管理与社会服务:财政收入;财政支出;财政用于教育的支出;财政支出中卫生经费;等级公路里程;公路货物周转量;公路旅客周转量;公路客运量;铁路客运量;城市道路长度;城市供水总量;城市清扫保洁面积;城市天然气供气量;地质灾害防治投资;城市公园数;街道办事处数量;(4)资源实力与可持续发展:降水量;人均水资源量;土地面积;林业用地面积;水田耕地面积;城市污水排放量;生活垃圾无害化处理率;城市排水管道长度;城市污水处理率;工业废气排放量;工业废水排放量;“三废”综合利用产品产值;(5)教育产业与创新科技:财政用于教育的支出;普通高等学校数;普通高等学校在校学生数;普通高中在校学生数;普通小学在校生数;发明专利申请受理量;发明专利授权量;科技活动人员数;

图1综合区域发展指标结构图

基于以上初步指标体系充分涵盖从经济发展到人民生活,从政府能力到社会服务,从可持续发展到特色产业的方方面面,兼顾发展的效率、速度、质量、潜力和能力。但是在数据收集中往往遇到很多实际情况需要做修正,对于少部分的数据遗漏采用数据拟合回归和缺省值补充等传统数据预处理方法进行修整[1],对于大部分的数据遗漏则采用指标替换的方式进行变通。

2.面板数据来源说明

本文依托皖北沿淮地区6市39县区的区域发展研究,因为在皖北沿淮地区中蚌埠市和淮南市具有相同的地缘特征和相似生活特征,所以对两个地区指标的衡量具有很好的实际意义,故而采用2005年到2012年蚌埠市和淮南市数据,数据来源于中国知网提供的《中国统计年鉴》、《中国城市统计年鉴》和各地区发展统计年鉴等。同时本文数据属于面板数据,可以克服时间序列分析受多重共线性的困扰,能够提供更多信息、变化、自由度和估计效率。

(二)具体实证分析

本文的具体实证分析分为以下三个方面:(1)对于原始数据的处理过程:按照论文前面介绍的科学指标模型和数据采集来源,将两个城市69个属性从2005年到2012年共8年的数据进行矩阵化,得到一个138行8列的原始数据矩阵,对于原始数据矩阵中的缺省值采用外插和内插法进行相应的差值拟合得到完整的使用数据。(2)对于使用数据的分析过程:第一步根据本文前期工作[14]22通过对数据进行谱系聚类、HCM和FCM三种聚类方法,采用Matlab2012b进行编程,比较从分2类到分10类的由R方统计量和伪F统计量得到的半偏相关统计量SPRSQ数值,发现当分三类时谱系聚类方法和HCM的SPRSQ数值达到最高值分别为0.400 1和0.023 9,而FCM的SPRSQ数值在分四类时达到最高值0.027 0,因此在进行分类构建信息熵时,将分三类和分四类的情况均予以考虑。第二步根据论文前面讨论的信息熵构建过程进行分类信息熵构建,首先将利用FCM对数据分三类和分四类得到的数据集

{xij}i=1,…C,j=1…ni(其中C=3或者4),在每个数据集进行z-score标准化:{xij-μiσi}i=1,…C,j=1…ni;然后讨论这些数据在分D段中出现的概率{Qj(x)}Dj=1,其中分段数D的大小要足够体现数据概率分布特征 [7,11]取D分别为10和20两种情况,计算相关信息熵数值H(X)=

EQ(x)[I(x)]=-∑xQ(x)logQ(x)

;最后通过和没有进行分段改进的原始数据集的未标准化和统一标准化两种情况进行比较得到相关结论。(3)对于数值比较的分析结果:通过比较未标准化、普通的列统一标准化和采用FCM分三类和四类的类标准化的三种方法在取分段数为10和20下的信息熵大小,得到了相关的数值结果表1。

对表1中的相关数值做图进行直观的表达,可以得到在分10段情况下的图2和分20段情况下的图3,其中横坐标为从2005年到2012年每一年的数据情况,从图中可以发现不论哪一年的数据数值在分类标准化后的熵值都高于图中最下面的线,即统一标准化的数据熵值。

从以上图表的结果来看,采用FCM算法对于数据分类标准化后得到的信息熵提升效果是明显的,具体可以概括为以下的一些结论:

1.未标准化和统一标准化的结果数值完全一样,这是因为z-score标准化过程并不改变数据分布特征,因此他们拥有相同的概率分布,则信息熵也完全一致,故而数据所含信息不变,因此在作图阶段就不体现未标准化的结果图形。

2.分段标准化后所有的数据结果均大于统一标准化的数据值,即信息熵在分段标准化后都有显著提高,这和理论推导的结果一致。故而分段标准化的方法可以有效消除量纲差异,同时还能有效的提高数据信息熵,从而使得数据含有更好的信息量。

3.就分段标准化而言从所有列信息熵的总和数值可以发现,在两种最佳聚类数时信息熵的总和情况分别可以表示为:分10段3类时的9.07高于4类时的7.8,分20段3类时的12.19高于4类时的11;同时数据信息熵随着分段的增大数值也在增大,这是信息熵本身性质所决定的,因为分段越多概率分布越接近均匀分布,由离散最大熵定理以及本文理论推导可知数据信息熵在增加。但是如果分段过多,甚至达到数据总量的一定比例,此时再高的信息熵数值也并不能够说明很好的信息量,所以在分段数的选取需要与数据总量相互匹配。

三、结论

根据以上论证发现,从理论角度和实证分析都验证了分类标准化可以有效的提高数据信息量。所以在相应数据分析方法使用之前,对于数据标准化处理阶段可以尝试采用分类标准化的方式,这样既可以消除数据量纲差异,也可以有效的提高数据含载信息,为进一步使用数据挖掘方法得到更好的数据结论提供较好的前期准备。

同时由于在数据集统一标准化中均值唯一,相当于只有一个中心节点。但是在分类标准化后,在不同类中都有相应的均值作为中心节点,所以分类标准化比传统的统一标准化更符合现代互联网思维,那就是去中心化和多节点多分类,以及扁平化结构体系的相关思想。参考文献:

[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.

[2]韩京宇.数据质量研究综述[J].计算机科学,2008(2):1-5.

[3]程惠芳,唐辉亮.开放条件下区域经济转型升级综合能力评价研究――中国31个省市转型升级评价指标体系分析[J].管理世界,2011(8):173-174.

[4]张钢.长江三角洲16个城市政府能力的比较研究[J].管理世界,2004(8):18-27.

[5]安悦.基于微博客的手机供应商排名推荐[J].数学的认识与实践,2013(10):23-29.

[6]汪冬华.我国沪深300股指期货和现货市场的交叉相关性及其风险[J].系统工程理论与实践,2014(3):631-639.

[7]田宝玉.信息论基础[M].北京:人民邮电出版社,2008:18-26.

[8]史小松,黄勇杰,刘永革.数据挖掘技术中聚类的几种常用方法比较[J].中国科技信息,2009(20):99-105.

[9]诸克军,苏顺华,黎金玲.模糊C均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005(3):52-61.

[10]陈衍泰.综合评价方法分类及研究进展[J].管理科学学报,2004(2):69-77.

[11]张树森.改进的基于熵的中心聚类算法[J].计算机与现代化,2014(3):53-56.

[12]韩宇平.基于最大熵原理的区域水资源短缺风险综合评估[J].安徽农业科学,2011(1):397-399.

[13]刘红琴.基于信息熵的省域内能源消费总量分配研究[J].长江流域资源与环境,2014(4):482-489.

[14]徐健.基于数据挖掘的区域发展指标分析[J].渤海大学学报:人文社科版,2014(5):21-35

数据信息论文范文第7篇

关键词:高校教师教育技术培训;决策树ID3算法;应用

中图分类号:G451.2 文献标志码:A 文章编号:1002-0845(2012)10-0098-02

信息技术的迅猛发展引起了教育的深刻变革。为此,提高教师的信息素养已成为推动我国高等教育信息化建设的必由之路。高教司于2000年发出的《关于开展高校教师教育技术培训工作的通知》(高教司【2000】79号)[1]中指出,“教育技术培训”是“新世纪教改工程”和“现代远程教育工程”的重要组成部分,是深化教学改革、提高教学质量的重要举措。

常熟理工学院自2001年6月开始,对教师进行教育技术培训,2003年1月起申报江苏省教育技术培训点,次年申报成功。2007年,学校正式下发的《常熟理工学院讲师等中级职称资格条件》(常理工[2007]73号)第二章第七条规定:教师申报教学系列、思政系列的中级职称应参加学校现代教育技术培训并取得合格证书。近几年来,学校先后举办了十期教师教育技术中级培训班,共400多名中青年教师参加了培训,极大地提高了教师的多媒体教学水平,加快了学校信息化建设的步伐。

一、高校教师教育技术培训存在的问题

教师教育技术培训的研究对象是教学过程与教学资源,研究范畴包括对教学过程的设计以及教学资源的开发、应用、管理与评价。目前,各高校的教师教育技术培训工作虽已取得了一定的成绩,但从培训的实际效果来看,仍存在着一些问题,主要表现在以下三个方面。

1.培训时间安排不够合理

目前,教师教育培训基本采用集体面授的方式。由于参训教师自身所承担的教学工作和科研任务比较繁重,很难抽出一段相对集中的时间来参加教育技术培训。为解决上述矛盾,高校通常会选择利用寒暑假时间安排培训,这需要牺牲培训教师和参训教师的许多休息时间,容易引发不满情绪,严重影响了教师参训的积极性,极大地降低了培训效果。

2.培训内容安排不科学

由于培训内容是根据全校教师需求统一安排的,基本没有考虑到参训教师自身所具备的知识层次、学科背景、思想意识等方面的差异,因此很难体现学科差别。各学科教师混合在一起集中学习,导致理论知识讲解过多而与教学实际联系较少,参训教师难以从根本上真正掌握教育技术。

3.考核方式单一,培训评价体系不健全

目前,高校教师培训采取的考核方式往往比较单一,通常以参加理论考试或者提交相关论文、作业等作为培训的最终考核结果。此外,各级培训机构大多未能及时地对培训过程做出评价,同时缺少参训教师的自我评价环节,因而不利于教育技术培训工作的后续支持和进一步开展。如此看来,建立和完善培训评价体系显得尤为重要,这也是建立教师培训长效机制的关键所在。

二、分类技术与决策树ID3 算法的相关理论

针对参训教师在知识层次、学科背景、思想意识等方面存在的差异,笔者提出了“先分类后培训”的思路。在培训正式开始之前,可采用数据挖掘领域内的分类技术对参训教师进行分类,这样有利于激发参训教师的积极性,从而增强他们运用现代教育技术辅助教学的主动性和自觉性。

1.分类

作为数据挖掘的重要任务之一,分类[4]就是要找出一个类别的概念描述或预测未来的数据趋势,它代表了这类数据的整体信息。分类的目的是为了构造一个分类函数或分类模型(也称分类器),该模型能够把数据库中的数据项映射到给定的类别中。

2.相关概念及定义

根据信息论中的有关定义,熵一般用于测量一个非叶节点的信息量的大小。若存在n个相同概率的消息,则每个消息的概率p是1/n,此时一个消息传递的信息量应为-log2(p)=log2(n)。若给定的概率分布P=(p1, p2, … , pn),则由该分布传递的信息量称为P的熵I(P)。

若一个记录的集合T根据类别属性的值被分成相互独立的类C1,C2,…,Ck,则识别T的一个元素所属哪一类所需要的信息量是INFO(T)=I(P),其中P是(C1, C2, … , Ck)的概率分布。

若先根据非类别属性X的值将T分成集合T1,T2,…,Tn,则INFO(X, T)是在已得到X的值后确定T中一个元素的类别属性时所需要的信息量,可通过确定Ti的加权平均值来得到,增益Gain(X,T)=INFO(T)-INFO(X, T)。

因此,可利用Gain(X, T)将属性进行排列,并可构造一棵决策树,其中每一个节点在属性中都是具有最大增益的一个,从而不必考虑来自于根的路径。

3.决策树ID3算法

决策树ID3算法[4]是由Quinlan首先提出来的。该算法是以信息论为基础、以信息熵和信息增益度为衡量标准实现对数据的归纳分类的。给定一个非类别属性C1,C2,…,Cn的集合、类别属性C及记录的训练集T之后,可以用ID3算法构造一棵决策树,其中R是一个非类别属性集合,具体算法如下:

若T为空,返回一个值为无效的单个节点;

若T是由其他均为相同类别属性值的记录组成,返回一个带有该值的单个节点;

若R为空,则返回一个单节点,其值为在T的记录中找出的频率最高的类别属性值(这时将出错,即对记录进行了误分类),将R中属性之间具有最大Gain(D, T)值的属性赋给D;

将属性D的值赋值给{dj,j=1, 2, … , m};

数据信息论文范文第8篇

[关键词]图像压缩;图像编码;压缩标准

中图分类号:Tp311 文献标识码:A 文章编号:1009-914X(2014)45-0358-01

0 引言

当今社会正处于高速发展的信息时代,而信息本身就需要进行存储、图像信息是人类认识世界和感知世界的重要源泉。图像具有确切性、直观性、高效性、时空性等特征,图像信息的这些特性导致它的数据量特别庞大。图像压缩就是对数值矩阵进行处理,用相对少的数据来表示这个数值矩阵。这个过程要在图像数据存储、处理和传输之前进行,在这之后要对压缩过的图像进行解压缩来重建图像,这就是图像压缩和解压缩,也称图像编码和图像解码。

1 图像压缩的原理

从信息论的观点来看,图像作为一个信源,描述信源的数据是信息量和信息冗余量之和。所以在图像数据的表示中存在着大量的冗余,如时间冗余、空间冗余、知识冗余、视觉冗余等,可以利用图像本身的一些特点和人眼的视觉特性,去除这些冗余数据就可以使原始图像数据量极大的减少,从而解决图像数据量庞大的问题,实现图像数据压缩。

2 经典图像编码

2.1 变换编码

很多图像编码的原理是通过消除图像的冗余度来达到压缩的目的,而变换编码则是改变了冗余度的表达方法,将原始数据用另一种更加紧凑的方法表示,有时可以实现更高的数据压缩。离散余弦变换(DCT)即是一种分形变换编码。DTC的出色之处是能将大部分图像分成像块,使像块的能量集中到少数低频DTC系数上,这样一来DCT可以将图像的能量很大程度的集中在一起,为压缩打下了基础。

2.2 嫡编码

嫡编码的原理是根据消息或消息序列出现概率的分布特性来寻找概率和码字长度间的最优匹配。游程编码、霍夫曼编码和算术编码等都是目前使用较多的嫡编码。

3 现代图像编码

现代图像编码和经典图像编码的区别之处在于它不是像经典图像编码那样尽量去除图像的相关性,而是利用图像的相关性进行编码。

3.1 分形编码

分形编码是一种直接在空间域寻找并最大限度地利用图像的自相似性的编码方法。

3.2 模型基图像编码

模型基图像编码主要是利用图像的区域、轮廓等二维特征以及形状、运动轨迹等三维特征进行建模,然后对图像和模型进行分析得出模型的各种参数,再对参数进行编码传输,解码端则由图像综合恢复出图像。这种编码方式可以实现较高的压缩比,图像的恢复质量也有了大大的提高。

3.3 小波变换技术

小波变换理论是新的数学分支,其基本思想是将原始图像通过一族小波函数转换为小波域的系数,再通过略去某一阈值下的系数,保留部分原始能量保留较多的系数来压缩图像。在小波变换中,图像被分解为不同空间、不同频率的子图像,一幅图像每经过一次小波变换,图像就被分解为四幅大小为原来的四分之一的小块频带区域,再将这四幅子图针对人的视觉特点分别进行不同的编码处理,可以得到比较高的压缩比和好的压缩质量。

4 图像压缩的分类

图像压缩一般根据图像数据是否有丢失分为有损压缩和无损压缩两类,无损压缩是理想的压缩方法(无信息丢失),也称可逆压缩。有损压缩也称不可逆压缩,经过有损压缩后,重建图像中像素的值和原始图像中对应的像素的值不完全相等,图像会发生畸变。

图像无损压缩编码方法可分为两大类:基于统计概率的算法和基于字典技术的算法。基于统计概率的算法是根据信息论中的变长编码定理和信息嫡的相关知识,用较短的代码代表出现概率大的符号,用较长代码代表出现概率小的符号,从而实现数据压缩。而基于字典技术生成的文件包含的是定长编码,每个码代表原文件中的一个特定序列。

和无损压缩不同的是,有损压缩编码在图像进行解码还原之后的准确度上要求没有那个高,因此会产生一定程度上的失真,但这种编码方式可以提高图像的压缩能力。一般情况下,这种失真人眼看起来可能会比较明显,也可能不明显,不管是哪种,只要在人眼的容忍范围之内,就说明这种压缩时可行的。

5 图像压缩标准

随着图像处理技术的发展,研究人员提出了多种图像压缩标准。常用的图像压缩标准分为静止图像压缩标准和视频图像压缩标准。

目前最常用的静止图像压缩标准是JPEG图像压缩标准。JPEG标准定义基于DCT得有损基本编码系统、面向大规模压缩得扩展的编码系统和面向可逆压缩的无损独立编码系统。JPEG具有有失真和无失真两种编码解码的处理方式,其中无失真得到的解码后图像和原图像数据基本相同,但压缩率较低,而有失真可以实现高的压缩比,但同时可能会导致图像的失真较明显。压缩比的高低可以在算法中改变压缩参数来调整。JPEG标准的计算量不算很大,算法也易于实现,所以具有较好的实用性能。

随着多媒体技术的快速发展和广泛应用,为满足用户对更高压缩效率和对压缩图像的互动性和可伸缩性的要求,JPEG2000应运而生的。

JPEG2000标准可以实现很高的压缩性能,它还具有只对感兴趣区域编码、可进行有损压缩和无损压缩、对错误的鲁棒性、对码流做随机访问等特性。灵活使用这些特征,不仅可以达到很高的压缩比,还可以满足在移动和网络环境下交互操作和可伸缩性的要求。JPEG2000的需求针对性以及技术先进性保证了它光明的应用前景。

6 图像压缩性能的评价

一个图像压缩方法性能的评价主要从两个方面来衡量:压缩比和图像质量评价。压缩比就是原始图像文件大小与压缩后生成文件大小的比值,比值越大,说明压缩率越高。图像质量评价一般是通过保真度准则来判断。保真度准则有两种:客观保真度准则和主观保真度准则。

6.1 客观保真度准则

客观保真度准则是对解码图像和原始图像的误差进行定量计算的一种衡量标准,一般是对整个图像或者图像中的某个指定区域进行某种平均计算得到均方误差。

6.2 主观保真度准则

图像经压缩编码和解码还原之后,图像质量的好坏还有一个直接的评价者就是人眼,因此人的主观印象也是衡量一个图像压缩编码的重要因素。主观保真度准则的实施过程是选定若干评价者对待评图像打分,对这些分数求个平均值可以得到主观评价分。但因为个体评价会受到个人喜好、光线、距离等因素的影响,很难对其制定一个统一的标准,所以图像的主观质量评价方法受到了一定的限制。

参考文献

[1] 张伟.基于小波变换的图像压缩系统研究[D].厦门大学硕士论文.2005.2.

[2] 向辉.基于小波理论的图像压缩算法研究[D].华东师范大学硕士论文.2006.7.

[3] 张跃飞.基于稀疏分解的图像压缩[D].西南交通大学硕士论文.2006.9.

[4] 雷萌.数据压缩算法的比较研究[J].2014.11.

注:基金项目:2012年民族学院校内项目“基于哈希表的数据压缩算法研究”,项目编号:12myZ05

作者简介

雷萌(1981-),女,讲师,硕士,研究方向:计算机软件与理论。

数据信息论文范文第9篇

可视化新闻的审美表征

随着社会的发展与进步,受众的价值观念和审美情趣也在发生改变,因此新闻可视化产生了新的审美表征。

1.审美情趣的多元化和个性化

今天,每个人不再是“单向度”的人,他们追求个性化表达,不再“人云亦云”,要求在新闻事件中具有话语权,因此可视化新闻在没计时要具备参与性和互动性,以吸引和方便其主动探索,同时也能提升可信度。

2.呈现方式的简洁直观化

可视化信息较文字信息更加直观清晰,层次分明,形成瞬间感染力和冲击力,便于受众接收和认知信息。运用可视化形式,可对庞杂的数据信息进行系统梳理,直观地揭示新闻核心。

2014年12月,中国铁路总公司“火车票预售期延长至60天”的消息。随后360浏览器推出可视化大数据工具“中国人还乡地图”,用大数据呈现春运期间全国“热门线路”“车次余票”“热门出发城市”“热门返乡城市”等动态信息,以及春运期间全国人口迁徙的形态。春运被誉为“世界奇观的人类大迁徙”,用可视化方式呈现,即时性更新数据,使信息呈现更加生动、立体和直观。

3.呈现方式的生动形象化

新闻报道过程中,对于复杂的时政新闻,用新闻图片无法清楚表达,文字内容又显得枯燥乏味,进行可视化处理,可使大量的文字报道转换为图像或符号,使信息图形化,让观众快速了解数据,从而为识记、保持、再认和回忆建立一种内在的联系,使接收这些信息的过程不再是枯燥乏味之事。①

2013年l2月10日,财新数据新闻与可视化实验室推出数据新闻《星空彩绘诺贝尔奖》。2014年10月6日,《星空彩绘诺贝尔奖》对1901年至2014年诺贝尔奖获得者进行梳理,回溯诺奖百年星,点击开始按钮,就能任意选取不同年份进行查阅。

4.信息传受的交互化

新闻的可视化呈现,使传者和受者的界限不再明显,实现了新闻信息传受的双向互动,也是审美体验的交互感应。

2014年11月24日,网易新闻推出互动专题《带你体验真实版“星际穿越”》。以“旅行者1号旅行日记”为主题,从点击进入的那一刻,受众就成为“旅行者1号”,开始完成星际穿越之旅。卫星发射,“旅行者1号”缓缓升空,开始拍摄星球的任务,然后进入恒星际空问,最后飞向太阳系外空间。全过程采用《Airlock》作背景音乐,配上浩渺的宇宙蓝色和变幻天体,在普及知识的同时,实现新闻可视化的联觉通感效应,引起受众情感的共鸣。

可视化新闻的美学意蕴

随着技术的进步和社会经济文化的发展,美学也在发生改变。传统印刷文化时代的深度美学口渐被平面化、视像化、娱乐化的时尚美学所取代。②

1.媒介文化形成的去圣化机制

今天,信息传播超越时空界限,工作生活节奏紧张使人们放弃深度阅读,而转向碎片化攫取信息。媒介文化的去圣化导致大众审美体验日趋多元化和个性化。媒介审美文化也秉承简化原则,消除知识壁垒。新闻的可视化传播正是基于此,以简洁直观、生动形象为标准进行作品设计。

2.消费文化形成的图像思维模式

消费文化下技术的进步,改变了人们的思维认知方式,读报时代的文字思维模式逐渐被图像思维模式所取代。人们更愿意阅读可视化的新闻报道,图像已经成为人们认识事物和感知事物的重要方式。以电子传媒为主导印刷传媒参与构筑的影像文化就成了混和媒介时代的宠儿。为此,许多西方学者把这种新的社会语境和文化景观描述为“图像转向”或“文化的视觉转向”。③

3.消费文化改变新闻传播模式

Web2.0语境下的受众已经逐渐改变了传统意义上的被动接受信息的局面,而是愿意主动参与到信息的中。笔者认为,用Prosumer(产消者)来定义当今受众更为合适和贴切。可视化新闻作品要求注重双向互动,增加新闻作品的体验性,形成交互感应。

可视化新闻的美学思考

在新闻可视化呈现中,要注意不可以美害真、人为加噪,而应当量体裁衣。

1.可视化新闻不可“以美害真”

真实性是新闻的生命。在进行新闻可视化过程中,要铭记真实是第一属性,美应是在真实性的基础上实现的,不可主次颠倒,以美害真。尤其是在对新闻图片的使用上,不能为实现构图的美观,而对新闻图片进行失真处理。

2.可视化新闻不可“人为加噪”

信息论的创始人香农提出信息传播中的“噪音”概念。我们不能在可视化过程中人为加噪,不能为追求可视化的“酷炫”,而将设计变得复杂,使其不利于数据信息的获取和解读。

优秀的新闻可视化作品不在于所承载数据的数量,而在于质量。斯坦福大学吉奥夫麦克金教授指出,优秀的数据可视化作品所用的数据是准确的、干净的、有价值的。

3.可视化新闻应“量体裁衣”

在进行新闻可视化呈现时,应量体裁衣。无论采用何种方式呈现新闻,最终目的都是对新闻事实进行表述,有的新闻适合用文字表述,比如短消息;有的新闻适合用可视化方式表述,尤其是一些复杂的新闻事件;有的新闻则需要文字、可视化二者兼备。

如果需要进行可视化呈现,则要根据新闻内容和数据类型,判断需要采用何种手段。数据地图类可视化方式主要用于展现地理分布或空间位置;时间线类可视化方式主要用于在时间维度呈现数据;交互式信息图表如泡泡图和树状图,可以用于经济新闻中,取代枯燥的数字等。

注释:

①何颂妍:《一图胜千言――电视新闻中的信息可视化处理》[J],《视听》,2014年第8期

②秦凤珍 何志钧 李志艳 孙恒存:《信息传媒文化与当代文艺生产消费的新变》[M],中国社会科学出版社,2012年版,第22页

数据信息论文范文第10篇

关键词 电力线通信;数据压缩;LZW

中图分类号TN913 文献标识码A 文章编号 1674-6708(2011)57-0192-02

电力线载波通信是利用已有的电力线路进行数据传输的一种通信方式,无需专门架设通信基础设施并且具有相当广泛的网络分布,具有投资小、设备简单、通信可靠性高等优点。然而,由于电力线载波通信存在着一些技术难题,如传输信道间歇噪声大、阻抗随负载变化大、信号衰减大等问题,我们将数据压缩技术引入电力线载波通信,在数据传输前进行压缩,这样就可以尽可能在有限的带宽内传输尽可能多的数据。

1 数据压缩原理

数据压缩是指在不丢失信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间。压缩的理论基础是信息论[1]。从信息的角度来看,压缩就是去除掉信息中的冗余,即去除掉确定的或可推知的信息,而保留不确定的信息,也就是用一种更接近信息本质的描述来代替原有的冗余的描述,这个本质的东西就是信息量。

关于数据压缩有很多算法,针对不同特点的数据选择不同的压缩算法从而达到最优的压缩效果。LZW继承了LZ77和LZ78压缩效果好、速度快的优点,且算法描述易于接受。该算法能在不了解数据统计特性前提下,使压缩比接近已知统计特性时所能达到的压缩比,且易于实现,是目前最常用的算法。

1.1 LZW算法基本原理

LZW压缩算法是一种新颖的压缩方法,Lemple-Ziv-Welch 三人共同创造,用他们的名字命名。它采用了一种先进的串表压缩,将每个第一次出现的串放在一个串表中,用一个数字来表示串,压缩文件只存贮数字,则不存贮串,从而使图像文件的压缩效率得到较大的提高。奇妙的是,不管是在压缩还是在解压缩的过程中都能正确的建立这个串表,压缩或解压缩完成后,这个串表又被丢弃[2]。

LZW算法中,首先建立一个字符串表,把每一个第一次出现的字符串放入串表中,并用一个数字来表示,这个数字与此字符串在串表中的位置有关,并将这个数字存入压缩文件中,如果这个字符串再次出现时,即可用表示它的数字来代替,并将这个数字存入文件中。压缩完成后将串表丢弃。如"print" 字符串,如果在压缩时用266表示,只要再次出现,均用266表示,并将"print"字符串存入串表中,在图像解码时遇到数字266,即可从串表中查出266所代表的字符串"print",在解压缩时,串表可以根据压缩数据重新生成。

LZW算法流程:

1)初始化:将所有的单字符串放入串表;2)读第一个输入字符给前缀串ω;3)Step: 读下一个输入字符K。

if 没有这样的K(输入已穷尽):

码字(ω) 输出;结束。

If ωK 已存在于串表中:

ω:=ωK;repeat Step;

else ωK不在于串表中:

码字(ω) 输出;

ωK加进串表;

ω:=K;repeat Step.

例子:

input:ababcbababaaaaaaa

ω:a->ab->ba->ab->4c->cb->ba->5b->8a->aa->aa->10a->aa->11a->a#->#

串表:1(a) 2(b) 3(c) 4(ab) 5(ba) 6(4c) 7(cb) 8(5b) 9(8a) 10(aa) 11(10a) 12(11a)

output:a b 4 c 5 8 a 10 11 a

1.2 电力线通信报文压缩算法设计

将LZW压缩算法应用在电力线通信中,数据采样利用率提高了两倍,使报文传递更可靠;通过控制信息位(bit)级检错、数据信息分组检错等手段,增强检错能力,降低误同步概率;数据信息分组检测纠错,报文长度不再受链路层程序逻辑限制;纠错方式不再是唯一的扩频,支持不同长度的扩频编码,速率的提高可减少报文冲突几率,有利于并行路由的顺畅运行;报文压缩后不仅可以提高传输速率,还可以提升数据传输成功机率[3]。

例如,报文原始数据为:255,24,54,255,24,255,255,24,5,123,45,255,24,5,24,54...如何对它进行压缩,因为原始数据可以用8bit来表示,故清除标志Clear=255+1 =256,结束标志为End=256+1=257,目前标号集为0 1 2 3......255 CLEAR END

第一步,读取第一个字符为255,在标记表里面查找,255已经存在,不做处理;

第二步,取第二个字符,此时前缀为A,形成当前的Entry为(255,24),在标记集合不存在,把它在标记集合中标记为258,然后输出前缀A,保留后缀24,并作为下一次的前缀(后缀变前缀);

第三步,取第三个字符为54,当前Entry(24,54),记录(24,54)为标号259,并输出24,后缀变前缀;

第四步:取第四个字符255,Entry=(54,255),记录(54,255)为标号260,输出54,后缀变前缀。.......

一直处理到最后一个字符,用一个表记录处理过程,CLEAR=256,END=257。

表1 LZW算法举例

2 算法改进

2.1 改进思路

LZW方法简单易行,但是存在诸多不足,例如,对不同大小的文件,均使用12位输出代码。在压缩的开始阶段文件较小时,字典中的短语比较少,使用位数更少的压缩代码显然能减少压缩文件的大小[4]。当“next code”的值在256到511之间时,9位输出代码就足以表示所有短语;另一个有待改进的方面是压缩率的监测。在压缩进程中,当字典空间被填满、新的短语不能加入到字典中时,对随后的字典中无定义的字符串就无法进行压缩,压缩率将下降。

2.2 改进方法

1)可变代码长度

发现字典填满时,立即将字典清空,以便后续字符串能建立短语。首先在字典中设置清除标志,当字典填满后,在进行阈值判断时,对每一个码字(Code Word)的使用情况计数。当进行阈值判断所得到的压缩比小于指定的阈值时,发出清除标志,这时根据字典中每一个码字使用的计数值大小进行排序,对字典进行相应的重构,然后删除排序靠后的若干项。这种方法较简单,也有效果[5]。

STEPl初始化,使开始词典包含所有可能的根(Root),当前前缀P置空;

STEP2当码字流有码字要译时,反复执行STEP3,STEP4,STEP5和STEP6;

STEP3读入字符数据流中的下一个字符C;

STEP4如果字符串P+C在当前词典中,

a P置P+C(用字符C扩展P);

b 把代表当前前缀P的码字输出到码字流;

否则,

c 输出表示P的码字到编码数据流;

d 把字符串P+C添加到词典;

e P置C(此时P仅含一个字符C);

STEP5若字典未满,则执行STEP3;

STEP6如果压缩比小于指定阚值,则清除匹配率小的词条,否则,返回STEPl;

STEP7结束。

上一篇:电子政务系统论文范文 下一篇:云计算数据论文范文