模糊法则归纳法在市场调查分析中的应用研究

时间:2022-07-22 04:36:05

模糊法则归纳法在市场调查分析中的应用研究

摘 要:模糊法则归纳法(Fuzzy Rule Induction using GMDH,简称FRI方法)是近年来兴起的非参数数据挖掘技术,它将模糊建模技术和自组织数据挖掘建模技术相结合,在金融、经济等领域已经得到了成功运用。文章分析了陕西省西安市和宝鸡市两地移动长话市场的消费者特征,在传统市场调查分析方法评述的基础上,进行了FRI方法运用于市场营销领域的尝试性研究。研究发现,FRI方法适用细分市场的特征,即适用于差异比较明显的细分市场特征的提取。

关键词:模糊法则归纳法;市场调查;数据分析

中图分类号:F272

文献标识码: A

文章编号:1003-7217(2007)03-0106-05

一、引言

市场调查的一个重要环节是调查数据分析。顾客感觉如何,怎样看待企业的竞争对手及其产品与服务,通过市场调查数据进行分析,有利于提升企业竞争力。市场调查数据分析常用统计方法,其中描述性分析是调查公司最常使用的方法,它操作简单,通过百分比计算比较分析以发现市场特征。由于得到的结果要借助于分析人员的相关专业理论知识和经验才能翻译成有信息价值的语言,该方法主观性较强。此外,其它统计分析方法,如参数检验、回归分析、因子分析和主成分分析等也常用于市场调查数据分析。这些方法各具特色,但使用它们或者需要假定数据总体符合一定的分布,或者要求数据有较强的相关性。由于市场调查多采用问卷调查形式,它的数据常呈现小样本、噪声大的特点,且定性数据多,难以找出数据的统计分布规律,因而使用这些统计方法的前提条件很难保证。

数据分组处理方法(Group Method of Data Handling,简称GMDH)是一种新兴的数据挖掘方法,它由乌克兰科学院A.G.Ivakhnenko院士于1969年提出[1]。GMDH建立在人类生存历史中最古老、最富有成效的试探法则选择学说基础之上,它将黑箱思想、生物神经元方法、归纳法和Gdel的数理逻辑方法有机地结合起来。GMDH具有揭示经济对象构成因素的功能,能从众多对经济对象有影响的因素中筛选出有重要影响的因素;对于有噪声的小样本数据,它通过建立非物理模型,能给出较准确的拟合与过程预测。上世纪90年代,德国学者J.A.Mueller和软件专家L.Frank将GMDH的基本思想用于其它数据挖掘方法,建立了非参数GMDH,并编制了功能强大的Knowledge Miner软件,使GMDH从理论、方法和应用诸方面上了一个新的平台[2]。非参数GMDH由GMDH的思想运用于其它数据挖掘方法构成,它包括:自组织模糊规则归纳(Self-Fuzzy Rule Induction using GMDH ,简称FRI)、客观聚类分析(Objective Cluster Analysis,简称OCA)、相似体合成(Analog Complexing ,简称AC)[3]。非参数GMDH既保持了GMDH的适于有噪声的小样本数据分析建模预测的优点,又具有相应的数据挖掘方法的功能,它用于经济、金融、生态等复杂系统领域的建模分析已有许多成功实例,但未见有用于市场调查数据分析的研究。市场调查数据具有小样本、有噪声且定性数据多的特点,正好适宜使用非参数GMDH方法。因此,以下研究拟将FRI方法用于企业市场调查数据分析,以期给市场调查数据分析提供一条新的有效途径。

二、FRI方法在市场调查中的运用

FRI本质上是一种规则归纳的方法,应用对象特点是输入输出变量模糊化具有实际意义,其用于市场调查数据分析主要是通过算法提取市场中不同消费者的特征规则。用这一特征规则来作为消费者特征的描述,它的应用分为以下几个步骤:

1.数据的预处理。市场调查的数据一般是通过调查问卷的形式取得,原始数据都是问题的选项,不能直接用于建模,必须进行预处理。首先从调查问卷中选取企业关心的问题和因素,将这些问题转化为变量,并将每个消费者(样本)对于问题的选择转化为对应的变量值。调查问卷的问题一般包含三种形式:选择题(包括单选和多选);填空题;打分和排序。对于单选题每一个选项转换为一个0-1二值变量。被调查者选择了哪一项,则对应的变量值为1,其余项对应的变量值均为0。如果多选和打分,则每个问题转化一个变量,前者的值是被调查者选项的序号,后者则是打分的值。对于填空题,则直接将所填数值作为变量值。

2. 消费者群体的划分和研究对象的选定。这由FRI算法本身的特点所决定的,FRI 算法是一种规则归纳的方法,它是通过不同群体的对比找出某一群体的主要特征,如果没有群体的划分,算法就不可能实现。在细分消费者群体后,可以根据实际情况选择感兴趣的群体进行研究。

3.数据的模糊化。这里需要分别对输入变量和输出变量进行模糊化。一般将所要研究的消费者特征属性对应的变量作为输入变量,而以类别标志变量作为输出变量。对于输出变量一般构造二三个等级的模糊子集进行模糊化,比如对于某一因素的评价值对应的三个等级模糊子集为{重要}、{一般}和{不重要}。对于输出变量 对应的模糊向量 可以通过第二步中的消费者群体的划分得到,对于第t个样本的输出变量yt对应于一个m维的模糊向量( m表示划分的消费者群体的数量,其中 表示样本对于第j类群体的隶属度。在实际的运用中,一般都简单地取为0或1,即如果第t个样本划分到了第j个群体中,则 。

4.规则的提取及分析验证。数据经过模糊化以后,就可以运用FRI算法提取规则,分析消费者特征。假设将消费者细分为a和b两类群体,通过算法得到规则:

IF

m&n or h

THEN

a

这里可将逻辑符号OR连接的各部分分别称为一个子规则,比如在上面提取的这个规则中,财经理论与实践(双月刊)2007年第3期2007年第3期(总第147期)谷月东,郑明翠:模糊法则归纳法在市场调查分析中的应用研究就分别有m&n和h两个子规则。这里需要引入一个支持度(S)的概念,它代表规则的显著程度。一般的数据挖掘中将支持度定义为:如果有规则AB,则支持度S是A∪B的事务占所有事物的百分比。这里将支持度定义为:对于子规则k,它的支持度Sk为一类样本中符合规则k的样本数占该类样本总数的百分比[4]。之所以要引入这一概念是因为在实际的市场分析中,如果支持度较低,则说明具有该种规则特点的消费者占总体的很小一部分,因而对这部分消费者进行研究就没有多大意义。在计算出每个子规则的支持度后,这里假设子规则m&n的支持度为α%,子规则h的支持度为β%,则a类消费者的特征可以这样阐述:α%的a类消费者具有m&n的特点,β%的a类消费者具有h的特点。同时需要强调的是运用FRI分析得出的消费者的特征是关键性特征,即在所研究的消费者群体中比较明显而在其它消费者群体中不太明显,而对于不同的消费者中间共同特征,该算法在规则提取的过程中已经舍去,这点与其它的数据挖掘方法是有区别的,需要注意。

5.相关建议的提出。进行市场调查的目的就是为企业的决策提供建议。因此,对于数据的分析最终还是要落实到为决策者提供关于市场和消费者的相关信息和有价值的建议。

三、移动长话市场实证分析

通过移动长话的实证分析可以发现,对于在细分市场差异比较明显时, FRI方法可以有效提取出不同细分市场各自独有的特征。为了增强实证分析的说服力,选用了两个具有代表性的市场进行分析。

(一)西安市手机长话细分市场特征分析

以西安市手机长话市场调查数据为基础得到23个方面的问题形成35个输入属性变量。有140个样本数据,其中有103个是直拨的消费者和37个是使用IP卡的消费者。根据上述信息提取西安市市场直拨消费者和使用IP卡的消费者的特征信息,以供企业作营销决策。

随机选取120个样本作为学习集,20个样本作为验证集 根据上述的步骤,运用软件Knowledge Miner提取规则得到以下IP卡消费者和直拨消费者的特征规则。

对于规则(1)在学习集中17个分类错误,正确率为85.44%,在验证集中3个分类错误,正确率为85%,可以用来描述IP卡使用者的特征。

规则(1)的解释为:对用IP卡拨打国内长途的费用比较了解(N―X1)并且对手机国内漫游的费用组成比较了解的消费者(N―X2)或是认为使用IP卡相对于座机打长话便宜的消费者(P―X4)或文化程度较高(P―X10)、经常使用短信减少话费(N―X6)、认为使用IP卡相对座机打长途方便(N―X5)的年轻消费者(N―X9)是IP卡的使用者。

规则(1)归纳出IP卡使用者的三种特征。通过市场调查数据得出具有这三种特征的消费者占IP卡的使用者的构成为:48.64%的消费者对于手机用IP卡拨打国内长途的费用(N―X1)和国内漫游的费用(N―X2)组成比较了解;10.81%的消费者认为使用IP卡相对于座机打长话便宜(P―X4);51.35%消费者是文化程度较高(P―X10)、经常使用短信减少话费(N―X6)、认为使用IP卡相对座机打长途查拨号方便(N―X5)的年轻人(N―X9)。

2. 直拨消费者的特征规则

IF ZO―X9

OR

P―X1 & N―X4

THEN N―Y

(2)

对于规则(2)在学习集中24个分类错误,正确率为80%,在验证集中3个分类错误,正确率为85%,模型精确度比较高,说明用模型提取的规则来解释直拨消费者的特征是可行的。

规则(2)解释为:中年消费者(ZO―X9)或是对于手机用IP卡拨打国内长途的费用不了解(P―X1)并且认为直拨相对座机打长途比较方便的消费者(N―X4)是直拨消费者。由此可归纳出直拨业务的使用者的两种特征。通过已有的市场调查数据得出具有这两种特征的消费者占直拨消费者的构成为: 46.60%消费者属于中年人(ZO―X9);77.67%消费者对于手机用IP卡拨打国内长途的费用不了解(P―X1)并且认为直拨相对座机打长途比较方便(N―X4)。

由(1)和(2)可以分析出,在西安市移动长话业务市场的消费者中,使用直拨的消费者和使用IP卡的消费者的特征是不同的:其一,使用IP卡消费者多数是文化层次较高的年轻人,使用IP卡主要是为了节省话费(占IP卡使用者的51.35%)。如果陕西省电信公司想要争夺这部分消费者,则应在该群体的集中地,例如高校开展营销活动,同时推出相应的业务时应该把价格放在首位,并在拨打的方便性上做文章。其二,对于直拨的消费者来说,这个群体主要是中年人(占直拨消费者的46.60%),并且由规则可知,中年人一般都使用直拨。他们考虑的主要是方便性,对于价格或是不太在意,或是不太了解(占直拨消费者的77.67%)。如果电信想进入这个消费群体,则应该着重在提高服务质量、增加消费者的使用方便性方面下工夫。(二)宝鸡市长话市场分析

以宝鸡市手机长话市场调查数据为基础得到23个方面的问题形成35个输入属性变量,有140个样本数据,其中有103个是直拨的消费者和37个是使用IP卡的消费者。根据上述信息提取宝鸡市市场直拨消费者和使用IP卡的消费者的特征信息,以供企业作营销决策。

随机选取60个样本作为学习集,27个样本作为验证集(NL=60,Nv=27),运用软件Knowledge Miner提取规则得到IP卡消费者和直拨消费者的特征规则。

1. IP卡消费者的特征规则

IF P―X5

OR

N―X3 & N―X81& N―X9

THEN P―Y

(3)

对于规则(3)在学习集中6个分类错误,正确率为90%,在验证集中5个分类错误,正确率为81.48%,模型精确度比较高,说明用模型提取的规则来解释IP卡消费者的特征是可行的。

对于规则(3)的解释为:认为使用IP卡相对座机打长途不太方便(N―X5)的消费者或是认为固定电话拨打与手机长话拨打相比通话质量较好(N―X3),对用IP卡拨打国内长途的费用比较了解(N―X1)的年轻消费者(N―X9)是IP卡的使用者。

规则(3)归纳出IP卡使用者的两种特征,通过调查数据得出具有这两种特征的消费者占IP卡的使用者的构成为:1)4.76%的消费者认为使用手机IP卡打长途不如使用座机方便(N―X5);2)66.67%%的消费者认为固定电话拨打长话比手机拨打通话质量好(N―X3),对用IP卡拨打国内长途的费用比较了解(N―X1)的年轻人(N―X9)。

对于特征1)来说,具有这种特征的消费者比例较小,可以将它忽略,因而宝鸡市的IP卡消费者主要是具有特征2)所描述的特征。

2. 直拨消费者的特征规则

IF P―X3

OR

P―X1 & P―X8 OR

ZO_X9

OR

P―X1 & N―X7

THEN N―Y

(4)

对于规则(4)在学习集中有5个分类错误,正确率为91.67%,在验证集中5个分类错误,正确率为81.48%,模型精确度也比较高,可以用来描述IP卡使用者的特征。

规则(4)解释为:认为固定电话拨打与手机长话拨打相比通话质量较差的消费者(P―X3),或是对于手机用IP卡拨打国内长途的费用不了解(P―X1),并且使用手机的同时不用小灵通(P―X8)的消费者或是中年消费者(ZO―X9),或是离开本地到异地时仍然使用手机拨打或接听电话(N―X7)并对于手机用IP卡拨打国内长途的费用不了解(P―X1)的消费者是直拨消费者。规则(4)归纳出直拨业务的使用者四种特征,通过市场调查数据得出具有这四种特征的消费者占直拨消费者的构成为: 1)3.03%的消费者认为固话拨打与手机长话拨打相比通话质量较差(P―X3);2)72.73%消费者对于手机用IP卡拨打国内长途的费用不了解(P―X1),并且使用手机的同时不用小灵通(P―X8);3)52.42%的消费者属于中年人(ZO―X9);4)78.79%的消费者离开本地到异地时仍然使用手机拨打或接听电话(N―X7)并对于手机用IP卡拨打国内长途的费用不了解(P―X1)。

对于特征1)来说,具有这种特征的消费者比例较小,可以将它忽略,因而宝鸡市的直拨消费者主要是具有2)3)4)所描述的特征。

由(3)和(4)可以分析出,在宝鸡市移动长话业务的消费者中,使用直拨的消费者和使用IP卡的消费者各自的特征大体上与西安市一致。使用IP卡消费者多数是年轻人,使用IP卡主要是为了节省话费(占IP卡使用者的66.67%)。对于直拨的消费者来说,主要仍是中年人(占直拨消费者的52.42%)。稍有不同的IP卡的使用者中有66.67%的消费者认为手机IP卡通话质量不如座机,因而电信如要争夺宝鸡市的这个消费群体,则可以大力宣传座机打长途的通话质量。而对于直拨消费者也发现了两个新的特征,78.79% 的消费者离开本地到异地时仍然使用手机拨打或接听电话,72.73%的消费者使用手机的同时不使用小灵通,说明宝鸡市的这类消费者是手机的坚定使用者,陕西省电信公司通过推出小灵通进入这个细分市场非常困难。

四、结 论

通过上面对西安市和宝鸡市电信长话市场用FRI方法提取规则的分析,可以得出两个消费者群体特点:直拨消费者以中年人为主,IP卡的消费者以年轻人为主。用FRI方法建立的模型精确度较高(在学习集和验证集上的分类精度都达到80%以上)。FRI方法提取了直拨消费者以中年人为主,IP卡的消费者以年轻人为主等特征(在IP卡的消费者中,年轻人所占比例为西安市81.08%,宝鸡市90.47% ,在直拨消费者中,中年人所占比例为西安市46.60%,宝鸡市52.42%)。这些特征在直拨和IP 卡两个细分市场的差异是明显的,说明如果不同的消费群体特征差异明显,可以很好地利用FRI方法来提取各个群体消费者的特征。

参考文献:

[1]刘普寅, 吴孟达. 模糊理论及其应用[M].长沙: 国防科技大学出版社,1998.

[2]张永生.厂商规模无关论理论与经验证据[M].北京:中国人民大学出版社,2003.

[3]何跃. 模糊法则归纳法及GDP主要影响因素研究[J]. 电子科技大学学报,2002,31(1).

[4]郑明翠, 贺昌政.自组织数据挖掘与回归分析方法的比较研究[J].系统工程与电子技术,2005,27(10).

附录1:

X1-.是否知道手机用IP卡拨打国内长途的费用组成:

1……知道

2……不知道

X2-.是否知道目前手机国内漫游的费用组成:

1……知道

2……不知道

X3-.固话拨打与手机长话拨打相比:

1……通话质量较好

2……通话质量较差

X4-.手机长话拨打与固话拨打相比:

1……话费较贵

2……话费较便宜

X5-.手机长话拨打与固话拨打相比:

1……查拨号方便

2……查拨号不方便

X6-.经常用手机短信方式来避免或减少手机长话:

1……是

2……偶尔用

3……不用

X7-.离开本地到异地时,是否使用手机拨打或接听电话:

1……是

2……否

X8-.使用手机的同时,是否也使用小灵通呢:

1……是

2……没有

X9-.被访者的年龄:

1…青年人(35岁以下)

2…中年人(35-50岁)

3…中年人(50岁以上)

X10-.受教育程度:

1…初中以下

2…高中(中专/技校/职高)

3…大专以上

The Study on the Application of Fuzzy Rule Induction in the

Market Research Analysis GU Yuedong1,ZHEN Mingcui2

(1.The School of Economics and Finance, Xi'an Jiaotong University, Xi'an,Shanxi 710100,China;

2.The School of Management, Sichuan University, Chengdu,Sichuan 610000,China)Abstract:Fuzzy Rule Induction (FRI) is an advanced new tool in data mining. It combines fuzzy modeling technique and selforganising data mining technique, and has been successfully used in many fields such as finance, economic, etc. On the basis of reviewing traditional market research analysis method, FRI is applied to data analysis in marketing field as consumer features of mobile longdistance telephone market at Xi'an and Baoji in Shanxi province. The findings show that FRI can be applied to abstract the characteristics of the subdivided markets with obvious differences.

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文 。”

上一篇:发展中国家企业国际化成长战略模式选择 下一篇:我国自有品牌建设的文化缺失及其治理