挖掘技术论文范文

时间:2023-10-25 12:22:41

挖掘技术论文

挖掘技术论文篇1

要了解Web数据挖掘技术,首先就必须要了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,Web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。对于服务器上的日志与用户信息的挖掘仍然属于传统的数据挖掘。Web数据挖掘由于Web的逻辑结构其所挖掘到的模式有可能是关于Web内容的,也有可能是关于Web结构的。同时有些数据挖掘技术也不能直接运用到Web数据挖掘中。Web数据挖掘的研究范围十分广泛,它的研究主要包括了数据库技术、信息获取技术、统计学、神经网络等。Web数据挖掘根据所处理的对象可以分为三类:Web文档的内容挖掘、Web文档的结构挖掘、Web使用的挖掘。Web文档的内容挖掘指的是从Web文档及对其的描述内容中获取到有用的信息,即是对Web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。文章写作的目的有一个总体的了解。而Web内容挖掘的这种方式非常有用,例如应用到检索结果的显示中。Web分类则指的是根据已经确定好的类别,为每一个获得的Web文档确定一个大类。聚类则是指的在没有确定类别之前,将相似度高的文档归为一类。关联分析指的是从文档集合中找出不同语词之间的具有的关系。Web文档的结构挖掘指的是从互联网的整体结构和网页之间的相互链接以及网页本身的结构中获取有用的信息和知识。目前为止针对结构的挖掘主要还是链式结构模式。对于Web结构的挖掘主要源于对引文的分析,引文分析的主要内容就是通过对网页的链接数和被连接数以及对象的分析来建立一个链接结构模式,这种模式可以用来对网页进行归类,同时还可以获取网页之间的相似度和关联度等信息。Web使用的挖掘一般情况下指的是对Web日志的挖掘。其挖掘的对象是用户与互联网交互过程中所抽取出来的各种信息,例如访问记录、用户名、用户注册信息以及用户所进行的操作等。在这一方面的研究已经比较成熟,同时也有很多较为成熟的产品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技术较为成熟的产品。

二、Web数据挖掘技术的工作流程

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的Web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成WWW资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

高校数字图书馆为师生主要提供以下功能:查找图书、期刊论文、会议文献等数字资源;图书借阅、归还等服务;图书信息、管理制度;导航到图书光盘、视频资源等数据库系统。师生时常登录到网站中查找其需要的信息,根据师生所学专业、研究方向不同,关注目标也不同。通常这类师生会到常用的图书馆网站上,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,而且所有改变常常是用户所关注的内容;另外,当目标网页所在的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题只要稍加改动,容易使用户难以找到所需内容。本课题采用Web挖掘技术与搜索技术相结合。首先允许用户对感兴趣的内容进行定制,构造数据挖掘的先验知识,然后通过构造浏览器插件,捕获用户在浏览器上的行为数据,采用Web数据挖掘的方法,深入分析用户的浏览行为数据,获得用户的信息资料集,最终为用户提供不同的个性化服务页面,并提供用户对站内信息进行搜索功能,同时可以满足师生对于图书馆资源进行查找访问的需求,实现高校图书馆网站资源真正意义上的个性化服务。

1、为开发网络信息资源提供了工具

数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过Web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过Web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。

2、为以用户为中心的服务提供帮助

通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过Web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3、Web数据挖掘技术在图书馆采访工作中的应用

在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而Web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。

4、使用Web数据挖掘技术提供个性化服务

传统的信息检索工具在友好型、可理解性、交互性方面都存在着很大的缺陷。通常情况下都只是将各种查询结果毫无逻辑的简单的进行罗列,用户很难从其中获取自己需要的信息,通过数据挖掘,可以对图书馆网站上的在线调查、留言簿、读者调查表等数据进行收集整理,对不需要的冗余信息进行剔除。通过分析可以获知用户所喜好的浏览模式是哪种,他们常访问的网站的路径是什么,他们对图书馆中的那些资源比较有兴趣。然后再根据用户的普遍需求与每个人的个性需求,建立起相应的规则,从而帮助网站设计人员对网站进行设计和优化,使得这些信息检索变得更加的个性化、智能化,并根据每个用户的偏好等特征将检索到的信息排列处理,使得读者可以用最快的速度获得想要检索的文献信息。通过Web数据挖掘技术可以对用户的特征信息进行总结,将那些从没有发出过信息的潜在用户进行归类,同时还可以免费的为他们提供各种他们所感兴趣的信息和资料,把这些潜在的用户转变为正式的用户使用Web数据挖掘可以对用户的检索日志进行分析,从而得知用户所感兴趣的内容、他们的研究方向,并根据这些内容为用户指定个性化服务的内容,为用户提供各种他们所感兴趣的各种信息。

5、应用Web数据挖掘技术可以为学校决策者提供更好的决策支持

挖掘技术论文篇2

要了解web数据挖掘技术,首先就必须要了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。对于服务器上的日志与用户信息的挖掘仍然属于传统的数据挖掘。Web数据挖掘由于web的逻辑结构其所挖掘到的模式有可能是关于web内容的,也有可能是关于web结构的。同时有些数据挖掘技术也不能直接运用到web数据挖掘中。Web数据挖掘的研究范围十分广泛,它的研究主要包括了数据库技术、信息获取技术、统计学、神经网络等。Web数据挖掘根据所处理的对象可以分为三类:web文档的内容挖掘、web文档的结构挖掘、web使用的挖掘。Web文档的内容挖掘指的是从web文档及对其的描述内容中获取到有用的信息,即是对web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。文章写作的目的有一个总体的了解。而web内容挖掘的这种方式非常有用,例如应用到检索结果的显示中。Web分类则指的是根据已经确定好的类别,为每一个获得的web文档确定一个大类。聚类则是指的在没有确定类别之前,将相似度高的文档归为一类。关联分析指的是从文档集合中找出不同语词之间的具有的关系。Web文档的结构挖掘指的是从互联网的整体结构和网页之间的相互链接以及网页本身的结构中获取有用的信息和知识。目前为止针对结构的挖掘主要还是链式结构模式。对于web结构的挖掘主要源于对引文的分析,引文分析的主要内容就是通过对网页的链接数和被连接数以及对象的分析来建立一个链接结构模式,这种模式可以用来对网页进行归类,同时还可以获取网页之间的相似度和关联度等信息。

Web使用的挖掘一般情况下指的是对web日志的挖掘。其挖掘的对象是用户与互联网交互过程中所抽取出来的各种信息,例如访问记录、用户名、用户注册信息以及用户所进行的操作等。在这一方面的研究已经比较成熟,同时也有很多较为成熟的产品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技术较为成熟的产品。

二、Web数据挖掘技术的工作流程

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成www资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

1、为开发网络信息资源提供了工具

数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。

2、为以用户为中心的服务提供帮助

通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3、web数据挖掘技术在图书馆采访工作中的应用

在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。

4、使用web数据挖掘技术提供个性化服务

传统的信息检索工具在友好型、可理解性、交互性方面都存在着很大的缺陷。通常情况下都只是将各种查询结果毫无逻辑的简单的进行罗列,用户很难从其中获取自己需要的信息,通过数据挖掘,可以对图书馆网站上的在线调查、留言簿、读者调查表等数据进行收集整理,对不需要的冗余信息进行剔除。通过分析可以获知用户所喜好的浏览模式是哪种,他们常访问的网站的路径是什么,他们对图书馆中的那些资源比较有兴趣。然后再根据用户的普遍需求与每个人的个性需求,建立起相应的规则,从而帮助网站设计人员对网站进行设计和优化,使得这些信息检索变得更加的个性化、智能化,并根据每个用户的偏好等特征将检索到的信息排列处理,使得读者可以用最快的速度获得想要检索的文献信息。通过web数据挖掘技术可以对用户的特征信息进行总结,将那些从没有发出过信息的潜在用户进行归类,同时还可以免费的为他们提供各种他们所感兴趣的信息和资料,把这些潜在的用户转变为正式的用户使用web数据挖掘可以对用户的检索日志进行分析,从而得知用户所感兴趣的内容、他们的研究方向,并根据这些内容为用户指定个性化服务的内容,为用户提供各种他们所感兴趣的各种信息。

5、应用web数据挖掘技术可以为学校决策者提供更好的决策支持

挖掘技术论文篇3

Abstract: The characteristic of data mining technology course and the problems in the course teaching were analyzed. Based on them, some countermeasures were proposed to improve the effect of course teaching of data mining technology.

关键词: 数据挖掘技术;课程;教学

Key words: data mining technology;course;teaching

中图分类号:G642.0 文献标识码:A 文章编号:1006-4311(2011)25-0155-01

0 引言

数据挖掘技术是电子商务专业的一门重要专业课程,它是信息化时代对信息与数据管理的必然要求。一方面,在生产、生活和商业活动中,我们产生了海量的数据,这些数据有着不同的表现形式,如最常见的超市记录单、各种各样的公司或商业数据库,还包括音频、视频等;另一方面,我们需要从这些数据中寻求规律,对数据进行“挖掘”,使数据发挥更大的作用[1]。数据挖掘正是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知识[2]。数据挖掘技术教学的目的就是要使学生掌握典型的数据挖掘技术,并能够运用数据挖掘技术解决实际问题,为今后运用数据挖掘技术解决实际问题打下扎实的基础。

1 数据挖掘技术课程特点

数据挖掘技术具有自己独特的课程特点:

1.1 新颖性 1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议(International Conference on Knowledge Discovery and Data Mining),由于把数据库中的数据形象地比喻为“矿床”,“数据挖掘”一词很快流传开来[3]。数据挖掘的发展仅有10余年的时间,数据挖掘技术课程是一门新兴学科。

1.2 内容广 数据挖掘包括关联规则挖掘、分类规则挖掘、特征规则挖掘、时序规则挖掘、偏差规则挖掘、聚类规则挖掘和预测这七大任务,相应的,每种任务都有自己专门的挖掘技术[4],如关联规则挖掘的典型技术为Apriori算法及其衍生技术,分类规则挖掘的典型技术为ID3或C4.5决策树算法及其改进算法等。

1.3 有深度 数据挖掘技术作为一门计算机与数据处理相结合的新兴学科,具有一定的难度。其中的任何一个技术都可以独立成篇,如粗糙集分类算法自原理至实例推广就是一门单独的课程;作为数据处理的重要内容,聚类算法同样可以独立成籍。

1.4 交叉性 诚如前面所述,数据挖掘技术有着广泛的支撑背景,既包括信息论方法和集合论方法等归纳学习类技术,又包括神经网络方法、遗传算法方法、蚁群算法等仿生物技术,还包括成熟的统计分析技术和模糊数学技术,此外还有公式发现类技术和可视化技术等。可以这样说,数据挖掘总是在广泛吸取其他各门学科的先进技术,并加以转化、发展的。

2 数据挖掘技术教学过程存在的问题剖析

数据挖掘技术作为一门新学科、新课程,发展迅速,但是其缺点也是不言而喻的,主要包括:

2.1 课程教材不统一 目前,数据挖掘技术的教材层出不穷,这些教材尽管总体涵盖内容相近,均自成体系,但是有的细节却并不一致,如多数教材主张采用E-R图进行数据仓库(数据挖掘通常总是与数据仓库连接在一起的)设计,但也有教材持反驳态度[3];对数据仓库系统的体系结构说法也不尽一致,不同的教材给出不同的体系结构,有的甚至将数据结构等同于体系结构[5]。这主要是由于学科和课程的新颖性导致的,使得教材的编写多带有研究探索的性质,未能达成统一。

2.2 教学重点不统一 教材的不统一和学时的不统一(如有的院校是36课时,有的是48课时)导致教学重点也不统一,有的考虑到学生掌握知识的浅显性,将重点放在统计分析技术,而对神经网络技术和遗传算法技术等相对较难的技术一笔带过;有的则考虑到体系的完整性,对所有数据挖掘技术等同对待,均匀笔墨。

2.3 教学方式不统一 数据挖掘技术是一门实验技术较强的课程,但是有的教师在安排授课时,仅设置理论课时,没有实验课时;有的教师则将课程直接放在实验室来上,偏重于对学生实验技巧的掌握。当然,更多的是将实验课时与理论课时交错进行的。对实验安排的处理也不尽相同,有的分组进行,有的则由学生独立完成。

3 提高数据挖掘技术课程效果的对策建议

3.1 精心编排课程讲义 课程教材是授课的首要基础,一本好的教材不仅便于教师的备课、授课,更有利于学生的理解。当然,教材与课时、教学大纲有着密切关系,教师在选择教材时应充分考虑学生的学科基础、授课课时数、教学大纲规定的培养目标等各种因素,从大量层出不穷的教材中选择最理想的教材,适当的时候也可根据相关教材,整理一份恰当的讲义教材,组织学生使用。

3.2 合理安排教学内容 数据挖掘技术的教学内容应考到学科体系的完整性,既要为学生打牢理论基础,又要突出学生实践能力的培养。因此要以“掌握理论、强化应用、突出能力”作为数据挖掘技术课程的培养目标,通过精选具有充分代表性、源于实际问题的典型例题与案例,使它们能基本覆盖在实际中最常见的数据挖掘问题,在讲解这些从实践中抽取并经过精心改造和设计的例题和案例的过程中,逐步地建立起学生应该掌握的数据挖掘技术理论框架。

4 结束语

数据挖掘技术教学具有十分重要的现实意义,通过科学讲述数据挖掘技术,有助于培养学生对理论知识的现实应用转化能力,培养学生从现实世界出发提出问题、分析问题和解决问题的能力。数据挖掘技术的教学应以培养学生能力为主线,精心组织教学内容,有效采用多种方式,增进学生对知识的理解与掌握,显著提高教学效果与质量。

参考文献:

[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

[3]周根贵.数据仓库与数据挖掘[M].杭州:浙江大学出版社,2004.

[4]陈安,陈宁,周龙骧.数据挖掘技术及应用[M].北京:科学出版社,2006.

挖掘技术论文篇4

[关键词]大数据数据挖掘 设备管理

中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)05-0265-01

近些年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。在一些其他领域也起到重要的支撑作用,特别是需要数据库系统提供有效的存储、索引和查询处理支持,源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

1 数据挖掘技术简介

数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程[1]。因此,可以说数据挖掘是一个从数据到知识的过程。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

2 数据挖掘运用的理论与技术

随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可实行的程序。

数据挖掘的技术有很多种,按照不同的分类有不同的分类法。数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术[2]。下面,作者将就关联规则做以介绍。

3.关联规则概念

关联规则(Association Rules)挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。一个关联规则[3]是形如的蕴含式,这里A、B为项集,AR,BR,并且AB=Φ。

关联规则挖掘的目的就是从事务数据库中挖掘出满足最小支持度(min_sup)和最小置信度(min_conf)的关联规则,挖掘一般分为以下2个过程:1.在事务数据库中找出所有大于最小支持度(min_sup)的频繁项集。2.由第一步找出的频繁项集产生期望的关联规则,即所产生的每条关联规则的置信度必须不小于最小置信度Apifori算法。

4.数据挖掘技术在设备管理中的应用

本文将利用关联规则算法对某公司售后服务部门所使用的设备管理数据进行挖掘。

结合一年来该公司现场执法取证类设备在使用过程中暴露出现的故障问题及设备维护保障等情况的统计数据,应用数据挖掘技术进行分析。原始数据集由该公司设备维护管理系统中的设备名称、使用单位、维护记录、更换部件、故障排查方法等有关数据字段抽取并汇总。

根据实际情况,假设支持度为0.2,采用Apriofi算法,产生的最大频繁项目集见表3。由试验结果可以看出,D:电容失效;F:数据端出错;G:调频键失效;J:电压过载;K:插脚脱焊。发生故障的概率比较高(在20组数据中,发生故障的概率达到20%以上)。

依据产生的频繁项生成关联规则,结果见表4。如果设定最小信任度为0.6,那么从表4可以得出3条关联规则,分别为:D-->F;D-->G;F-->G。

对应到该取证设备故障为:电容失效-->数据端出错;电容失效-->调频键失效;数据端出错-->调频键失效。

2014年7月,该单位要执行一项任务,按公司领导要求调用该现场取证执法仪类设备12套。为证明上述结论的有效性,将这12套设备分为2组,每组6套,分别为A组和B组。其中A组在投入使用前,根据结论对相关的部位进行预防性维护,而对B组则按常规维护,不做任何维护。经过1天24小时不间断使用,结果发现,A组中6套设备全部正常运行,且状态良好;而B组中则有2套设备出现调频键失效故障,1套设备相继出现电容失效、数据端出错故障,影响了取证的工作。由此得出,应用关联规则对设备的系统数据进行挖掘,对于优化设备的性能,提高设备在实战中的稳定性,确保任务顺利完成具有重大意义。

5.结语

数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和广阔市场潜力的新兴学科之一。随着信息技术和数据库技术的不断发展,各行各业的人们掌握了大量的数据,在竞争日益激烈的现今社会里,如何迅速有效的获得隐藏在数据之后的有用的知识信息,成为众多企业决策者和管理者的当务之急。

数据挖掘是一门综合性的学科,其中用到了数据仓库、数理统计[4]。计算机技术等很多知识,不同的主题需要选择不同的方法进行分析,经过十多年的研究,每一种方法都踊跃出大量的算法,这些算法中也各有利弊,在不同的问题上要选择不同的算法,才能最大限度的发挥数据挖掘的潜能。

此外,数据挖掘除了发展和完善自己的理论和方法,也要充分借鉴和汲取数据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、医疗、分子生物学等学科领域的成熟的理论和方法。

参考文献

[1] 韩家炜,堪博著,范明,孟小峰译数据挖掘概念与技术(第2版)[M]北京:机械工业出版社,2007.

[2] 苏新宁杨建林邓三鸿等,数据挖掘理论与技术[M]北京:科学技术文献出版社,2003.

[3] 梁循数据挖掘算法与应用北京大学出版社,2006.

挖掘技术论文篇5

关键词:网络数字内容挖掘;深度采集技术;互联网舆情

中图分类号:F49 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-01

社会化媒体给互联网带来的变化在于,由社交网络参与用户组成的用户关系网,构成了信息的传播链,传播链上的不同节点(用户),对于信息的传播起着不同的作用。传统的挖掘技术只关注数据内容而忽略用户维度,具有一定的片面性。从数据挖掘的角度,针对社交网络的特点,只有综合考虑数据内容和承载数据内容的传播链(用户关系网)才有可能获得更有价值的挖掘成果。

一、网络数字内容深度采集技术

(一)异构多维网络数据采集

异构数据采集将文字、图片、音视频、多媒体等多种数据类型定义为数据的异构性。除了对于普通网页的采集能力,对于异构数据要求具备以下采集能力:支持论坛、博客、据微博等各类网站的数采集。支持文字、图片、音频、视频等做媒体信息的采集。对于不同来源、不同类型的异构数据具有准确解析元数据的能力,包括智能化自动分析,或者基于模板或规则的方法实现元数据准确解析。

在社交网络已经成为重要应用趋势的背景下,参与网络信息共享的主体不再单单是数据内容本身,而是包含了参与人这个重要因素。我们把数据本身作为第一维,而把数据产生和传播的参与人作为第二维,定义网络数据的多维性。在多维特征下,为了实现深度挖掘的目标,除了内容数据的采集能力,对产生和传播数据的参与人(用户)以及他们之间的关联关系(用户关系网)具备深度采集能力:

1.支持社交类网站用户信息采集。根据社交网站所能提供的信息,用户属性信息可以包括用户名、用户ID、信息数、粉丝数、关注数、个人介绍、个性化标签、教育信息、行业信息、地域信息、认证信息等。

2.支持内容数据中有关用户维度的信息采集。对于社交网络类型的数据源,在采集内容数据的同时,需同步采集到其发帖人名字或ID。对于多层传播的内容数据,比如评论、转发等,能够采集到内容数据在各个传播层次的驱动用户以及信息传播方向。

3.对于社交网络类型网站,能够根据需要采集用户之间的关联关系,比如关注关系,评论关系,转发关系等。

(二)社交网络穿透采集

以微博、社交网站为代表的社交网络是一种封闭或本封闭网络媒体,其内容数据并不是完全共享的状态。每个使用社交网络的用户,首先需要注册为一个用户,登录到微博或社交网站上才能浏览信息。提供社交网络服务的网站,为了网络信息安全,在用户认证、信息安全等方面一般都进行较为严格的控制。在这样的环境下,社交网络的数据采集一般会受到诸多方面的限制。

互联网海量数据以及时时刻刻产生新数据的背景,决定了任何数据挖掘工作,都不可能在将网络数据全部采集到本地的前提下进行,特别是社交网络所产生的巨大实时信息量。但是,如果采集模块能够根据数据挖掘工作的进展,不断调整数据采集的目标并提供给挖掘模块使用,则可以认为它已经为数据挖掘工作提供了最大限度的支持。依据目标驱动采集的要求,需要采集技术具备以下功能:

1.数据采集具有灵活的调用接口,可以嵌入数据挖掘模块,由挖掘模块按需方便调用。

2.支持多种采集手段,包括定点采集、元搜索,可根据指定的线索进行深度采集,比如可以根据搜索引擎的搜索结果进行进一步的深度采集。

二、网络数字内容深度挖掘技术

(一)非结构化数据挖掘。主要包括关键词抽取、自动聚类、自动分类、自动摘要、正负面情感分析等技术,实现对网络数字内容的基本挖掘功能,为进一步深度挖掘提供基础。

(二)多媒体挖掘。主要包括基于内容的图像检索技术,视频摘要和字幕提取技术,语音识别技术等。

(三)热点事件挖掘。热点事件挖掘是指从海量内容数据中挖掘出网民关注的焦点事件。热点事件挖掘需要综合运用对网络意见领袖、转发和评论信息的统计,结合内容聚类技术完成。结合地域特征和行业特征,还可以挖掘出基于地域或行业的热点事件。

(四)人物关系挖掘。通过社交网络中人物之间的信息传播特点进行统计分析,获得人物之间的关联关系。可以利用人物之间的关注关系、评论关系、转发关系等关系展开统计分析工作,其中评论关系能够比较客观地反映人物之间的关系。

(五)多维挖掘技术。以社交网络为特点的内容数据可以挖掘多维度信息,包括人与人的关联关系、人与事件的关联关系、事件与事件的关联关系以及时间维度下的事件演变过程。这些信息从不同的维度反应出事件相关的内在关联,其挖掘结果可以为网络舆情分析提供详实的数据支撑。

三、网络数字内容挖掘技术的实践意义及发展建议

网络数字内容挖掘技术是互联网内容管理和应用的重要支撑技术,是社会化媒体发展的新趋势,为网络数字内容挖掘带来了挑战,也带来了机遇。在传统挖掘技术的基础上,迫切需要加大投入,形成自主的技术、产品和应用,服务于互联网舆情分析以及其他互联网挖掘应用,创造社会和经济效益。

另外,海量数据的挖掘需要一个性能优越、功能丰富的数据存储和检索平台,作为网络挖掘系统的底层支撑平台。平台具有异构数据的统一搜索,支持结构化、半结构化、非结构化数据的统一搜索等功能;具有高性能、智能化信息处理、弹性扩展等特点和能力,可以支撑PB以上级别数据;无单点故障,具有故障感知、自动恢复、可在线扩展等功能;多检索引擎机制,对于不同的数据类型和检索需求,可以选择不同的检索引擎,比如全文检索、图像检索等。

参考文献:

[1]曹来成.利用容错技术提高P2P网络安全[J].哈尔滨工业大学学报,2009(03).

[2]李军,马晨光,武平.一种P2P网络中对等结点间的身份认证方法[J].科学技术与工程,2009(21).

[3]翟国伟,任新华.网络认证系统中监督机制的研究[J].微计算机信息,2010(03).

挖掘技术论文篇6

【关键词】数据挖掘技术;软件工程;应用

社会的发展使得技术也得到了快速发展,信息技术营运而生,并且被人们广泛的应用于机械、医疗、化工和教育等领域,发挥着越来越重要的作用。在当前社会的发展背景下,信息技术中的软件工程虽然发展规模不断扩大,但是在技术上已经不能满足对资源管理的要求,而数据挖掘技术的到来弥补了软件软件工程的不足,促进了软件工程的进一步发展

1数据挖掘技术的简介

1.1数据挖掘技术的含义

所谓数据挖掘,主要指的是在大量的数据信息中利用科学、有效的算法第一时间获取到有用信息的筛选过程。大量的信息存在于生产和生活领域,使得人们在处理事情是无从下手,这样大大降低了人们的工作效率,也浪费了工作人员宝贵的时间。而这一问题通过数据挖掘技术的使用得到了很好的解决

1.2数据挖掘技术所采用的方法

在具体的操作中,数据挖掘技术会通过很多方法来使任务得以完成。具体的方法有如下几种:1.2.1遗传算法的使用所谓遗传算法,主要是指基于生物自然选择与遗传激励的随机搜索算法,也是数据挖掘技术常用的一种操作方法。遗传算法的有点就在于表面上看似无联系的事物,却能在事物模型间建立相关的练习,实现事物之间共同发展,现在生物界越来越重视的遗传基因等的研究,所以这种方法很受人们的欢迎。1.2.2采用决策树方法这种方法主要用于对信息的分类和整合,在遇到大量的信息的时候,能够在短时间内找出关键的信息,能够使信息分类的快速化和简单化,并且保证了信息分类的准确度,但是此方法的不足之处就在于具有较差的抗噪性能,不能全面的来表述较为复杂的概念。1.2.3采用统计分析法往往会利用回归分析和主成分分析等方法来分析数据库字段之间的关系。在字段之间的关系包括相关关系,函数关系也是其中的一种,不同的是函数关系可以用公式来表示,而相关关系则不能通过公示来表示关系,系统分析法的使用为这种关系的分析提供了便利。1.2.4采用可视化技术可视化技术是采用一些图表来对数据进行表现,便于对数据的理解,比如,使用简单图形来展示存在于数据库中的多个数据,使研究者看起来一目了然,使单调的数据形象化,更容易掌握数据的相关信息。1.2.5采用神经网络方法它模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,用神经网络连接的权值表示知识,其学习体现在神经网络权值的逐步计算上。前馈式网络、反馈式网络和自组织网络是常用的三种神经网络模型,分别用于预测、联想记忆和聚类等。

2软件工程中数据挖掘技术的应用表现

2.1用于软件项目管理方面

软件项目的管理呈现出复杂化和系统化的特点,数据挖掘技术应用于软件项目管理一方面表现在对组织关系的挖掘,比如公司举办年会等大型活动,在人员的分配上如果处理不好,就会出现混乱的局面,为了实现人力资源的合理配制,往往采用数据挖掘技术来区分每个职员的职责,实现项目管理的有序化,提高了办事效率;软件项目管理中使用数据挖掘技术的另一个方面就是挖掘版本控制信息,在此系统面临外系统入侵时提出警告是数据挖掘技术所具备的功能之一,除此之外数据挖掘技术可以检测该系统的修复情况,版本控制信息的作用就是方便了人们对版本信息的查看,而数据挖掘技术的使用为系统的安全运行提供了更有利的保障,使得软件项目的管理水平逐步提高。

2.2漏洞的检测时数据挖掘技术的使用

当数据挖掘技术用于检测软件的漏洞时,第一步要弄清楚要检测什么样的软件,第二步就是要制定合理的计划,计划的目的是为了更好的对软件进行检测,不同软件的构成和性质决定了检测要采用不同的方式,紧接着就是对漏洞库中的数据进行整理,对于不需要的数据进行清除,除此之外对于丢失的项目要采取措施补救回来,用数值表示来代替数据属性。另外,要对合适的数据模型进行验证,不同的项目会采取不同的方法,重要的是选择合适的发掘方式来使其形成测试集,进而可以对全部的结果进行比较,通过比较找出最满意的方式,数据挖掘技术的应用不见可以检测漏洞还可以对未知的漏洞进行防护,并且把漏洞的种类进行分析,整合出修复的方法,能使的在第一时间找出漏洞并进行修复,使得软件能够保持良好的性能,使其运行速度不至于减慢。

2.3挖掘程序代码和结构中数据挖掘技术的使用

在挖掘程序代码和结构方面比较常用的一种数据挖掘方法就是克隆代码检测法,该方法分为度量、文本对比、程序结构和标识符对比这四种方法,四种方法各有各自的特点,具体的运用中需要考虑实际情况来确定到底使用那种方法。克隆代码检测通常会复制粘贴某一个代码,在特殊的要求下,会根据需求来改正某些代码,检测这些代码主要是为了防止大面积出现故障,维护系统的安全,为软件运行提供一个可靠的环境。另一个常见的就是Aspect的挖掘,Aspect的挖掘就是常见说的横切关注点挖掘。软件工程中面向方面软件的改造需要解决好Aspect的挖掘,虽然可以采用大量的方式来解决这个问题,但是最重要的方法之一就是度量分析法。

3数据挖掘技术在具体的使用中面临的问题

3.1数据复杂化

目前的软件工程数据主要包括结构化和非结构化两类数据。非结构化数据包括软件代码,结构化数据则跟软件的版本信息有关,非结构化数据和结构化数据之间联系密切,因此在使用数据挖掘技术的时候,要对着两种数据的关系进行考虑,这就增加了挖掘技术使用的难度。

3.2评价标准不一致

生产生活中很多领域都在使用数据挖掘技术,在使用后对它的结果也采取了一定的评价方法,但是往往这些方法不能一致,在软件工程中也很难统一评价标准,因为在软件工程中出现的信息一般比较复杂,而且往往通过不同的方法来表达,所以获取者在进行信息比较时候,面临很大的苦难,所以导致不能准确的对数据挖掘结果进行分析。

4结论

总而言之,时代的发展越来越离不开数据挖掘技术的使用,这项技术很大程度上满足了人们的需求,受到越来越多的重视,经过本文的论述之后,可以得知数据挖掘技术不仅使软件工程更加完善,而且使人们学会用新的方式来获得信息,虽然书籍挖掘技术在实际的应用中会因为软件项目的数据复杂等原因会面临一些挑战,但是科技也在不断进步,相信未来,数据挖掘技术会得到更广泛的应用。

参考文献

[1]陈建桦.数据挖掘技术在软件工程中的应用研究[J].硅谷,2014(01):11-12.

[2]姚文涛.试论软件工程中数据挖掘技术的应用[J].河南科技,2014(23):45-46.

[3]雷蕾.关于数据挖掘技术在软件工程中的应用综述[J].电子测试,2014(02):19-20.

挖掘技术论文篇7

【关键词】软件工程 数据挖掘 软件测试

数据挖掘又称为数据采矿或资料勘探,是数据库知识发现(KDD)中的重要组成部分,具体是指利用相关算法搜索隐藏于大量数据中信息的具体过程。近年来,随着科技和经济的不断发展,一种基于软件工程的数据挖掘技术得到了广泛应用。本文通过对比软件工程数据挖掘与传统数据挖掘的区别,并结合软件工程数据挖掘的相关概念,为将软件工程数据挖掘应用到计算机软件测试中提出了合理的意见和建议。

1 软件工程数据挖掘简述

所谓软件工程数据是指软件在开发和测试过程中所存储的各种数据的总和,主要包括软件需求分析文档、软件可行性运行分析文档、软件的设计文档、使用说明以及测试用例、测试结果和用户意见等诸多方面的数据。近年来,随着计算机和信息技术的不断发展,软件工程数据挖掘技术已被广泛应用到计算机软件开发和测试的各项工作中,并促进着信息产业的发展。

2 软件工程数据挖掘与传统数据挖掘的区别

2.1 数据的复杂性

与传统的数据挖掘技术相比,由软件工程数据挖掘技术进行系统分析而得到的数据更具复杂性。软件工程数据除了包含软件版本以及软件报告等方面的信息外,还包含了系统中的代码与注释等非结构化的数据,虽然这两种数据不能以统一的方法进行计算,但在两种数据之间却存在着密切的联系,这就使得通过软件工程数据挖掘技术而得到的系统数据更具复杂性。

2.2 挖掘结果的特殊性

在传统的数据挖掘技术应用到软件测试工作后,其测试结果通常经由报表子系统的处理后,以图形或表格的形式呈现出来。但就软件工程数据挖掘技术而言,其所需要具备的功能不单是为用户提供相关测试结果,其更需要为用户提供符合或结果的相关实例或软件缺陷定位方面的信息。

2.3 挖掘结果的多元化评价

数据信息挖掘结果具有多元化的评价或者相关测试、开发结果的评价难以统一是软件工程数据挖掘区别于传统数据挖掘的另一特点。对于传统的数据挖掘技术而言,对挖掘结果的评价已基本形成了统一的意见和评价标准,但就软件工程数据挖掘而言,由于软件的开发人员和测试人员对数据信息的要求较为具体和严格,数据结果也具有较强的复杂性。因此,挖掘结果的评价方法也较为复杂。

综上所述,如何将软件测试的结果和对测试阶段数据预处理方面的结果进行有效表述已成为当前软件工程数据挖掘技术应用的难点。所以,下文则着重从软件工程数据挖掘在软件测试阶段的应用方法展开了详细分析。

3 软件工程数据挖掘在软件测试阶段应用的研究

3.1 缺陷分派

所谓缺陷分派是指在进行软件测试的过程当中,如发现软件在安装或运行过程中出现缺陷,则将修复缺陷的工作分配给软件维护人员进行维修处理。在进行软件的缺陷分派工作时,软件测试人员需要连同开发人员一起分析使软件产生缺陷的原因,进而对相关缺陷的性质和特征信息进行获取,而缺陷信息报告的数量通常是庞大大,这就增加了缺陷分派工作的难度。此外,由于缺陷报告的撰写工作通常是由非专业人员负责的,其对软件缺陷的描述较为模糊,这又严重增加了缺陷分派工作的不确定性。软件工程数据挖掘在缺陷分派中的应用主要体现在对软件缺陷的自动分派上,其对软件缺陷进行自动分派的核心思想是:以软件编程的相关理论为基础,将缺陷分派看作编程中的一个分类问题,将需要分派的缺陷看作具体类,并将已撰写好的缺陷报告看作是分类文本(分类依据),这便将缺陷分派问题转移到了软件工程中的文本分类问题中。利用软件工程数据挖掘解决缺陷分排问题的具体步骤为:(1)利用可扩展标记语言工具(XML)从缺陷类中获取相关的缺陷报告文本,并从报告文本中选取一部分文本作为训练集,以软件缺陷报告中的文本内容作为具体的训练依据,被制定进行缺陷分派处理的测试人员作为报告文本的分类标签,进而开展相关的缺陷分类工作;(2)充分发挥训练集的作用,并以此为依据训练朴素贝叶斯分类器(基于贝叶斯定理的简单概率分类器);(3)以训练好的分类器作为依据,将无分类标记的缺陷报告进行分类。通过软件工程数据挖掘对软件缺陷分类的一系列处理措施可知,软件工程数据挖掘的应用在指明缺陷类别的同时,也有效提高了缺陷分派的工作效率。

3.2 缺陷重述

软件测试过程中缺陷分派工作的有效开展需要以相关的缺陷信息作为数据保障,而缺陷信息的自动获取工作则需以缺陷重述作为其理论和实践的双重依据。在缺陷报告的改进方面,软件工程数据挖掘可以利用Ccured(记忆型系统翻译程序)对应用程序进行预设。通过在缺陷的每一个逻辑语句和缺陷语句前加一句判定,进而将此次赋值进行记录并判断其是否为零。如果将软件的完整缺陷报告发送给测试者,由于软件和报告的规模较大,则很容易导致缺陷分类具有较强的模糊性。因此,软件工程数据挖掘要求对缺陷记录点依照概率p进行取样,通过这种方法,即便缺陷报告不存在其主体,测试结果也可以显示出相关缺陷的信息,从而为缺陷分派工作的进行打下良好的基础。

4 结论

本文通过对软件工程数据挖掘技术的定义进行阐述,并结合就软件数据挖掘技术的相关特点,对将其应用到软件测试过程中缺陷分派和缺陷重述的方法展开了详细分析。可见,未来加强软件工程数据挖掘在软件测试方面的应用,对于提高软件性能、促进电子计算机产业的发展具有重要的历史作用和现实意义。

参考文献

[1]鄢萌.基于概率潜在语义分析的软件变更分类研究[D].重庆大学,2013.

[2]雷蕾.关于数据挖掘技术在软件工程中的应用综述[J].电子测试,2014,02(12):128-129.

[3]罗韬,罗峰.数据挖掘在软件工程领域中的应用浅析[J].电子技术与软件工程,2014,01(09):222.

作者单位

挖掘技术论文篇8

关键词:数据挖掘;决策树;C4.5算法;教学管理;高校教学

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04

随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。

毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。

1 数据挖掘简介

数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。

1.1 数据挖掘的定义

H包含如下功能:

综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。

1.2 数据挖掘的主要方法

数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。

数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。

2 决策树算法基本理论

2.1 决策树方法介绍

决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。

决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。

2.2 C4.5算法

1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。

C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:

首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:

其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。

接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:

然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:

最后,求信息增益率,表达式为:

C4.5算法的伪代码如下:

输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes

输出:一棵决策树

1)创建根节点root;

2)If Samples都在同一类C Then;

3)返回label=类C的单结点树root;

4)If Attributes为空Then;

5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;

6)Else;

7)For each测试属性列表Attributes中的属性;

8)IF测试属性是连续的Then;

9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;

10)Else;

11)计算测试属性的信息增益比率;

20)添加子树Generate Tree C4.5;

21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。

3 毕业论文成绩管理系统的设计和实现

利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:

1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。

2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。

3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。

4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。

5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。

6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。

7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。

4 结论

最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。

在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。

参考文献:

[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.

[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.

[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.

[4] Tom M Mitchell.(美)卡内基梅隆大学.机器学习[D].曾华军,张银奎,译,北京:机械工业出版社,2003.

[5] Porter B W, Holte E R. Concept Learnin gand He uristic Classification in Weak Theory Domains[D].A rtificial Intelligence.1989,45(2):229-293.

上一篇:光传输通信技术论文范文 下一篇:管理流程论文范文