数据挖掘在沈阳世博园旅游业中的应用

时间:2022-09-10 01:23:59

数据挖掘在沈阳世博园旅游业中的应用

[摘 要] 沈阳世博园旅游业的发展,取决于其营销战略制定的正确与否,而制定的正确的营销战略的基础是对旅游业中旅游客源的研究。因此,我们可以利用数据挖掘技术,挖掘出详细有效的游客行为特征信息,从而制定正确的营销战略。

[关键词] 旅游业 数据挖掘 分类 决策树 SAS

随着世界经济的发展,旅游在全球范围内已成为当代人重要的生活方式和社会经济活动之一,因此,旅游业逐渐发展成为许多国家的重要支柱产业。在我国发展老工业基地的号召下,作为重工业城市之一的沈阳,如何通过发展旅游业以带动相关产业的发展就成为我市经济发展的又一新途径,而2006年受世人瞩目的“沈阳世界园艺博览会”的成功举办,为沈阳的旅游业提供了良好的发展契机,并对经济和社会起到了明显的促进作用世园会期间,世博园内客流如潮,其中大部分为省外游客,国际游客主要为日本、韩国、东南亚等周边国家和地区的游客。据报道:“世园会的举办使周边地区的土地价格升值了五倍,拉动沈阳GDP新增长100多亿以上,城市建设水平提高5年~10年。但是,当沈阳世园会结束后,世博园热逐渐降温,外地游客将会锐减,本地去世博园休闲的人数也将在平稳中逐步下降,如何继续打造“世园会”这一旅游品牌以发挥“后世园会时代”的旅游贸易带动作用,解决客源不足这一迫在眉睫的问题就成了世博园今后的营销策略中的重中之重,而数据挖掘技术己经成为数据库和信息决策领域的前沿研究力一向之一,受到国内外学术界的广泛关注,在商业经济和企业管理领域都得到了较为广泛的应用,取得了显著的社会及经济效益。因此,应用数据挖掘技术的理论和方法,以2006年~2007年间沈阳世博园的旅游问卷调查所产生的数据为依据,基于数据挖掘的分类技术,利用数据挖掘工具,从两个方面进行分类挖掘,即影响游客消费的因素以及影响游客对沈阳世博园综合评价的因素,来解决世博园所面临的客源不足问题。

一、数据挖掘技术

近年来数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘,简单的说就是从大量的不完整的,有噪音的,模糊的,随机的实际应用的数据集中“提取”或“挖掘”出有效的,新颖的,潜在有用的,以及最终可理解模式的高级处理过程。

数据挖掘一开始就是面向应用的,它不仅面向特定数据库的简单查询调用,而且要对这些从微观到宏观进行统计、分析、综合和推理,以及指导实际问题的求解,祈求发现数据间的相互关系。这样一来就把人们对数据的应用从低层的末端查询操作,提高到为高级决策者提供决策支持,因此它比数据库的功能更强大。

人们常把数据挖掘(DM)与另一个常用的数语――知识发现(KDD――Knowledge Discovery from Database)相混淆。相对来讲,数据挖掘(DM)主要用于统计界、数据分析、数据库和管理信息系统界;而知识发现(KDD)主要流行于人工智能和机器学习。

因此,应用数据挖掘技术,对旅游贸易中的已有数据提供全面、深入地分析,成为了解游客及其行为特征的重要助臂。也正是由于其创造客户价值的能力,目前数据挖掘技术已经被许多国外旅游行业,作为一个重要的竞争工具在使用。

二、数据挖掘在沈阳世博园旅游业中的运用

第一,沈阳世博园每年都会向游客发调查问卷,因此积累了大量的数据,但是对这些数据的处理还停留在初级的数据备份,简单的查询统计阶段,使得这些数据还不能很好的发挥它的作用,而数据挖掘是一种决策支持过程,是深层次的数据信息分析方法。第二,挖掘出的信息的价值在于为沈阳世博园的决策人提供决策依据,因此,挖掘出的信息必须是决策人容易理解的。这样,信息最终才能转化为沈阳世博园的优势竞争力。

正是由于上述原因,我们在数据挖掘技术中选择了结构和生成规则易于理解的决策树分类算法,利用SAS Enterprise Miner为挖掘工具,全面分析沈阳世博园旅游信息数据中隐藏的规律性的东西,来解决世博园所面临的问题。

1.数据挖掘的过程和方法。在数据挖掘过程中,将大量的数据转化为分类规则,从而可以更好的分析这些数据。图1为数据挖掘实施流程图,具体过程如下:

第一步,明确目标和确定挖掘对象。首先,清晰地定义出问题,认清数据挖掘的目的是数据挖掘的重要一步。其次,不但从建模的角度强调定义目标的重要性,而且从实际需要的角度强调清晰定义该目标的重要性。

第二步,数据采样、数据预处理。我们必须收集支持模型的有关数据进行数据采样,在有了建模所需的完整数据集以后,下一步就需要对数据进行预处理。在预处理的过程中,首先,为了使后面的挖掘工作易于进行,我们需要进行数据集成。其次,在拥有明确的目标和干净、准确的数据之后,还需要进行数据转换(将数据转换为适于挖掘的形式),使数据能够发挥最佳效果。这一数据模型是针对算法而准备的,不同的算法可能需要不同的分析数据模型。

第三步,数据分类挖掘,训练生成决策树。分类挖掘的目的是为了建立一个分类模型。首先要选择合适的挖掘算法,并使用合适的程序设计软件实现这一算法,接着对所得到的经过转换的数据进行挖掘,训练生成决策树。

第四步,分类规则结果分析。这一步主要解释和评估分类结果,是整个数据挖掘的核心部分,实现数据挖掘的目的,为决策提供证据支持。

第五步,规则的应用。这一步是希望将分析所得到的规则运用到实际工作当中去。

2.沈阳世博园使用数据挖掘技术的案例应用。基于沈阳世博园实例的研究,旨在说明数据挖掘技术在沈阳世博园旅游业中的有效性和实用性,并借此案例进一步简要阐明在沈阳世博园旅游业中使用数据挖掘技术的具体实施过程。

(1)本案例的研究的目标和挖掘对象是帮助沈阳世博园决策者建立游客的行为模式,并以此作为沈阳世博园制定可行营销战略的依据,来解决世博园所面临的客源不足问题。

(2)为了获取游客的行为模式,选择了2006年~2007间沈阳世博园的旅游问卷调查所产生的数据为依据。首先,对收集的数据进行了清理,因为数据不准确必然导致数据挖掘模型实施的失败。其次,还对一些计算机难以识别的数据进行处理,把部分游客属性数据转化为简单、便于处理的数字形式。最后,为了便于决策树模型的建立,根据实际情况,选择与游客的花费和游客对旅游目的地评价显著相关性较大的属性作为建立分类决策树模型的依据。这些相关属性包括:游客个人资料数据(年龄、性别、家庭月收入、是否城镇居民、职业);游客的行为数据(旅行方式,出行目的,出行天数、支付方式);游客态度数据(交通、购物环境、景点人文、景点秩序、景点景观、旅游总花、餐饮)等。

(3)在本案例中,使用决策树算法,主要从二方面分析了沈阳世博园旅游市场,一方面,选择游客的花费作为决策树的分类对象。把这一属性范化为离散属性,共有0=低、1=中、2=高三个属性值。表1给出了不同消费档次的样本数和分布情况。另一方面,选择游客对旅游目的地的综合评价作为决策树的分类对象,这一属性有2=好,1=一般,0=差,三个属性值。表2给出了游客对旅游地综合评价的样本数和分布情况。

最后,根据各种工具性能分析,并且结合本项目的实际情况,使用SAS Enterprise Miner为数据挖掘工具,进行数据挖掘,具体决策树算法采用C4.5,即根据信息增益率的大小选择属性。信息增益率Gainration(x)算法如下:

其中,Gain(x)为信息增益,,它表示把训练集T分成n部分而生成的潜在信息。

四、挖掘结果分析

通过使用SAS Enterprise Miner为数据挖掘工具,在沈阳世博园的案例中挖掘出了70多条有关规则,在挖掘出的这70多条规则中,有一些规则是比较明显的,是有经验的决策人在管理工作中已经发现或是可以察觉的规则;而另一些规则却是潜在的、是决策人不易察觉或无法察觉的。同时,挖掘出来的这多条规则并不一定都是有用的或是有意义的,在管理者具体把这些规则用于实践中时,不同的目标往往需要不同的规则作为基础。

例如,在这个案例中,由于决策属性较多,只列出了生成的部分决策树模型如图2所示,从决策树模型所示的规则可以看出:对于游客来说景点再好,如果购物环境差,也会给游客造成不好的印象,这里的购物环境就包括园内商品价格一般是园外同类商品价格的3倍~4倍,也存在有些游客被导游强迫到处处购物等现象。

我们还可以从决策树模型所示的规则分析出,发现如下规则,只有少数游客在沈阳世博园旅游超过8小时,绝大多数的游客在沈阳世博园游园的时间不超过5小时,这就自然造成游客总花费降低,进而影响世博园内一些商业设施的盈利,而要使游客愿意停留更长的时间,进一步突出世博园的特点,改善购物环境就显得极为重要。另外,通过规则集中,发现还有一些规则因为较复杂而难以理解,所以有待专家做进一步的分析和研究。

通过对挖掘出的规则的分析,对解决世博园所面临的严重的客源不足问题的解决提出以下几点建议:

1.改善世博园的整体环境,吸引更多的国内外游客前来观光,发掘其文化内涵、提升其产品品位,使得世博园能够可持续发展。

2.管理者可以深入挖掘沈阳园艺旅游项目,结合沈阳固有的历史底蕴,突出北方旅游的特色,以带动沈阳整个旅游业的发展。

3.打造世博园文化产业品牌,将世博园从“会展地”转型成“旅游主题公园”,借鉴其他国家的先进经验,如美国的“迪斯尼”、“环球影城”等主题公园。

4.加大对沈阳世博园乃至沈阳的宣传,与国际国内政府、组织及社会各界的全面接触,为世博园积累丰富的人脉资源以吸引更多地海内外游客的关注,促进沈阳的旅游业的发展。

五、结论

本文利用决策树分类方法对沈阳世博园旅游业的旅游信息数据库进行挖掘,得到了一些有意义的规则。实践证明,数据挖掘技术对于希望了解和预测游客行为的旅游区来说,是十分有用的工具。但是,数据挖掘仅仅是许多帮助旅游区寻求决策支持的许多方法中的一种,也必然有它的局限;我们也不能说数据挖掘就是旅游区成功营销策略的保证。在实际的运作中,如果能够有旅游专家的参与,那么对数据挖掘的针对性,准确性,对这个研究方向的发展将具有更大的促进。因此,我们还常常需要把数据挖掘技术和其他一些方法结合起来使用,以便旅游区能够根据挖掘出来的信息,做出相对最优的营销决策。

参考文献:

[1]罗海蛟等:数据挖掘中分类算法的研究及其应用[J].微机发展,2003, 13

[2]J.W.Han, M.Kamber.Data Mining:Concepts and Techniques[M].2001

上一篇:关于VMI策略的研究综述 下一篇:目的论与化妆品品名翻译