关联规则挖掘在板球比赛技战术分析中的应用研究

时间:2022-07-06 09:48:15

关联规则挖掘在板球比赛技战术分析中的应用研究

【摘 要】板球教练常需要分析大量的比赛数据信息,进而判断队员的场上表现,制定科学有效的作战方案。但随着比赛信息量的增大,人脑已经无法做出精准的分析。为了挖掘出有用的信息规则,帮助教练调整比赛战术,提高全队的比赛成绩,本文使用关联规则挖掘算法,挖掘比赛中准确而有用的关联规则,保证比赛战术的有效性。研究证明,该算法具有一定的可行性和正确性,能为我国的板球运动发展提供有益参考。

【关键词】关联规则;数据挖掘;体育数据分析

近几年体育视频分析已成为一个研究热点。由于体育比赛具有巨大的商业价值和受众群体,许多科研机构都投入了大量的研究工作。数据挖掘应用在体育比赛分析领域,主要是提取一些有用的隐藏在数据之中的信息规则[1-2]。板球是近几年在我国兴起的一项运动,但还处在起步阶段,现在的板球国家队有很多队员都是我院的学生。为了更好的推进我国板球事业的发展,提高我国板球队的技战术水平,本研究无疑提供了很好的借鉴和参考。

1 国内外研究现状

目前,国内外已在体育数据挖掘方面做了很多研究工作。IBM[3]对NBA篮球比赛进行数据挖掘研究,采用基于对象的数据模型来处理比赛数据,并利用Apriori算法挖掘数据模式间的相互关联,同时完成了数据分类。Smith等人[4]提出了基于贝叶斯分类法预测棒球赛扬奖的获奖者,通过赛场的表现如胜利、失败、好球的加权平均值,投手失分率和球队胜率等。新西兰板球协会已开始对板球比赛进行数据挖掘研究,旨在帮助球队教练和队长,根据赛场局势排兵布阵,特别是在局点的重要关头做出一些决策来保证比赛胜利。然而,如何利用板球比赛中的关联规则进行数据挖掘仍然有待研究。

2 研究对象与方法

2.1 研究对象

以世界老牌劲旅印度男子板球国家队为研究对象,搜集了包括2013年世界杯比赛在内的40场比赛。通过专门设计的板球信息采集系统,对比赛中的一些重要信息,如:击球方法、落点、得分、砸桩等进行记录,形成含有10000条数据的板球关系数据库,利用本文的关联规则算法进行数据挖掘和技术分析

2.2 研究方法

由于生成的板球关系数据库结构比较复杂,存在一些不相关的规则信息,为了提高挖掘效率,首先采用主成分分析法对数据库进行降低维度,通过归纳总结生成频繁模式。然后针对生成的频繁项集,利用关联规则挖掘算法提取出重要的关联规则。最后,通过专家访谈和文献查阅,对关联规则的语义进行科学的解释,形成板球比赛中的重要规律。具体过程如图1所示。

图1 关联规则挖掘过程

3 关联规则挖掘算法

3.1 主成分分析

对于板球比赛的原始数据,本数据库描述了每次比赛的整个细节,包括队员姓名、角色、属性、队员间的相互关系及队员们的打法等。数据录入之后,还需要执行一致性检查来确保数据的准确性。由于生成的数据库结构比较复杂,同时存在着一些数据冗余,为了提高挖掘频繁模式项集的效率,通过主成分分析法,对数据库进行降维,提取出高度相关的属性变量,形成高内聚的板球比赛数据集。

3.2 频繁模式生成算法

针对压缩的数据集采用频繁模式生成算法挖掘频繁项集,该算法是基于两阶段频集思想的算法。在这里,所有项集的支持度大于最小支持度的模式集称为频繁模式集。我们假定最小支持度为61.4%,通过频繁模式算法生成的频繁模式集如表2所示。表1列出了板球比赛中技术动作的英文缩写。

表1 板球技术动作代码

表2 板球频繁模式集

输入:压缩数据集

输出:频繁模式集

算法:

ri表示第i条记录。

Pi表示第i个频繁模式。

L表示生成的频繁模式集。

Min_Support表示最小支持度。

For i=1 to n

{

If P(ri)错误!未找到引用源。P(rj) 其中,错误!未找到引用源。 then

Count(Pi)++;

}

For i=1 to n

{

If Count(Pi) >=Min_Support then

L=L Pi

}

End

其中,

错误!未找到引用源。 (1)

RNi表示模式i得分的次数,Ti表示模式i各种情况的总次数。如果模式i的得分次数比大于或等于Min_Support,那该该模式就是重要的频繁模式集。

3.3 关联规则挖掘

在生成频繁模式后,通过关联规则挖掘来提取频繁模式集之间的重要关联。假定PK为一个频繁模式集,PK={P1,P2,…,PK}。如果{P1,P2,…,PK-1}=>PK,且满足最小置信度,那么就是重要的关联规则。

输入:频繁模式集

输出:重要的关联规则

算法:

i=0;Ci={f1, f2, … , fn }

For each Ci,

If fi => fj then

Confidence(fi => fj) = P(fj / fi)

=count ( fj 错误!未找到引用源。fi ) / count ( fi )

If Confidence(fi => fj)>=Min_Confidence then

Sr = Sr 错误!未找到引用源。(fi => fj)

Else

Delete the rule

End

基于此算法,有高度关联的规则会被抽取出来。例如:模式Pi ={BG,HK,JT},其子集是{ BG,HK },{ HK,JT },{ BG,JT },{ BG },{ HK},{ JT },由这些非空子集构成的关联规则如下:

BG - HK=> JT Confidence=(0.75/0.75)*100%=100%

HK - JT => BG Confidence=(0.50/0.75)*100%=58.8%

BG - JT => HK Confidence=(0.50/0.85)*100%=66.66%

JT => BG - HK Confidence=(0.75/0.85)*100%=88.23%

BG=> HK - JT Confidence=(0.50/0.90)*100%=55.55%

HK => BG - JT Confidence=(0.40/0.85)*100%=47%

尽管最小置信度设定为60%,但是BG- HK =>JT,BG-JT=> HK 和 JT=>BG- HK是更重要的规则,因为BG- HK =>JT的置信度为100%,这是最有效的关联规则之一。

3.4 知识表示

针对生成的关联规则,通过专家访谈和查阅资料,我们解析成容易理解的重要规律,为教练比赛排兵布阵提供科学依据。以关联规则BG-PS =>JT为例,如果投手投出一个反弹球,击球手采取横甩方式击打的话,那么击球手触地得分的概率为100%。

4 实验结果与分析

4.1 实验结果

以印度著名板球手萨钦泰杜尔卡为例,为了发现与他有关的重要信息,将对该队员所有的频繁模式进行分析,挖掘出隐藏在模式间的关联规则,同时进行科学的解释。本文最小置信度设定为80%,生成的关联规则如表3所示。

表3 关联规则挖掘结果

4.2 规则分析

从以上结果可以看出,

A.萨钦泰杜尔卡把反弹球击打到正后外野的得分率在80.82%,但这种打法并不能保证一定得分。根据本文的分析,如果他能训练对反弹球采取横甩的打法,则更有可能触地得分,增加获胜的机会。

B.萨钦泰杜尔卡击打短球而得分的,97.18%是在正后内野区。但是这种重扫击打方式并不多见,所以对得分率的影响微乎其微。

C.当面对高抛球时,如果采取重击打法,触地得分的几率为100%,同时又有全取6分的机会。这足以说明,如果这种打法训练好的话,成绩肯定会大幅提高。

在本文中,我们提出了一个高效的数据处理方法和频繁模式生成方法,该方法被证明可以胜任。通过主成分分析,降低了数据库的维度,从而进一步提高数据挖掘的效率。在无重复扫描和交换负载的前提下,利用频繁模式生成算法提取所有的频繁模式。同时,挖掘过程产生的知识更有价值和建设性,为教练的技战术部署提供了重要参考。

【参考文献】

[1]高洪歌, 赵会群. 关联规则挖掘在乒乓球比赛技战术分析中的应用[J]. 北方工业大学学报, 2006, 18(1): 15-19.

[2]赵会群, 孙晶,花勇民,等.数据挖掘技术在体育比赛技战术分析中的应用研究[J]. 北京体育大学学报, 2010, 31(5): 712-715.

[3]Bhandari, Edward. Advanced Scout: Data Mining andKnowledge Discovery in NBA Data[J]. Data Mining and Knowledge Discovery, 2012,20(3): 121-125.

[4]Smith et al. "Prediction of CY young award winner of base ballgame: Bayesian based classifier approach [N]. white paper, 2013-5-16(1).

上一篇:高校青年教师应努力提升驾驭课堂的能力 下一篇:地方本科院校水产养殖学专业的建设与发展研究