关联规则挖掘在板球比赛技战术分析中的应用研究

时间：2022-07-06 09:48:15

【摘要】板球教练常需要分析大量的比赛数据信息，进而判断队员的场上表现，制定科学有效的作战方案。但随着比赛信息量的增大，人脑已经无法做出精准的分析。为了挖掘出有用的信息规则，帮助教练调整比赛战术，提高全队的比赛成绩，本文使用关联规则挖掘算法，挖掘比赛中准确而有用的关联规则，保证比赛战术的有效性。研究证明，该算法具有一定的可行性和正确性，能为我国的板球运动发展提供有益参考。

【关键词】关联规则;数据挖掘;体育数据分析

近几年体育视频分析已成为一个研究热点。由于体育比赛具有巨大的商业价值和受众群体，许多科研机构都投入了大量的研究工作。数据挖掘应用在体育比赛分析领域，主要是提取一些有用的隐藏在数据之中的信息规则[1-2]。板球是近几年在我国兴起的一项运动，但还处在起步阶段，现在的板球国家队有很多队员都是我院的学生。为了更好的推进我国板球事业的发展，提高我国板球队的技战术水平，本研究无疑提供了很好的借鉴和参考。

1 国内外研究现状

目前，国内外已在体育数据挖掘方面做了很多研究工作。IBM[3]对NBA篮球比赛进行数据挖掘研究，采用基于对象的数据模型来处理比赛数据，并利用Apriori算法挖掘数据模式间的相互关联，同时完成了数据分类。Smith等人[4]提出了基于贝叶斯分类法预测棒球赛扬奖的获奖者，通过赛场的表现如胜利、失败、好球的加权平均值，投手失分率和球队胜率等。新西兰板球协会已开始对板球比赛进行数据挖掘研究，旨在帮助球队教练和队长，根据赛场局势排兵布阵，特别是在局点的重要关头做出一些决策来保证比赛胜利。然而，如何利用板球比赛中的关联规则进行数据挖掘仍然有待研究。

2 研究对象与方法

2.1 研究对象

以世界老牌劲旅印度男子板球国家队为研究对象，搜集了包括2013年世界杯比赛在内的40场比赛。通过专门设计的板球信息采集系统，对比赛中的一些重要信息，如：击球方法、落点、得分、砸桩等进行记录，形成含有10000条数据的板球关系数据库，利用本文的关联规则算法进行数据挖掘和技术分析。

2.2 研究方法

由于生成的板球关系数据库结构比较复杂，存在一些不相关的规则信息，为了提高挖掘效率，首先采用主成分分析法对数据库进行降低维度，通过归纳总结生成频繁模式。然后针对生成的频繁项集，利用关联规则挖掘算法提取出重要的关联规则。最后，通过专家访谈和文献查阅，对关联规则的语义进行科学的解释，形成板球比赛中的重要规律。具体过程如图1所示。

图1 关联规则挖掘过程

3 关联规则挖掘算法

3.1 主成分分析

对于板球比赛的原始数据，本数据库描述了每次比赛的整个细节，包括队员姓名、角色、属性、队员间的相互关系及队员们的打法等。数据录入之后，还需要执行一致性检查来确保数据的准确性。由于生成的数据库结构比较复杂，同时存在着一些数据冗余，为了提高挖掘频繁模式项集的效率，通过主成分分析法，对数据库进行降维，提取出高度相关的属性变量，形成高内聚的板球比赛数据集。

3.2 频繁模式生成算法

针对压缩的数据集采用频繁模式生成算法挖掘频繁项集，该算法是基于两阶段频集思想的算法。在这里，所有项集的支持度大于最小支持度的模式集称为频繁模式集。我们假定最小支持度为61.4%，通过频繁模式算法生成的频繁模式集如表2所示。表1列出了板球比赛中技术动作的英文缩写。

表1 板球技术动作代码

表2 板球频繁模式集

输入：压缩数据集

输出：频繁模式集

算法：

ri表示第i条记录。

Pi表示第i个频繁模式。

L表示生成的频繁模式集。

Min_Support表示最小支持度。

For i=1 to n

{

If P（ri）错误！未找到引用源。P（rj）其中，错误！未找到引用源。 then

Count（Pi）++;

}

For i=1 to n

{

If Count（Pi） >=Min_Support then

L=L Pi

}

End

其中，

错误！未找到引用源。（1）

RNi表示模式i得分的次数，Ti表示模式i各种情况的总次数。如果模式i的得分次数比大于或等于Min_Support，那该该模式就是重要的频繁模式集。

3.3 关联规则挖掘

在生成频繁模式后，通过关联规则挖掘来提取频繁模式集之间的重要关联。假定PK为一个频繁模式集，PK={P1，P2，…，PK}。如果{P1，P2，…，PK-1}=>PK，且满足最小置信度，那么就是重要的关联规则。

输入：频繁模式集

输出：重要的关联规则

算法：

i=0;Ci={f1， f2， … ， fn }

For each Ci，

If fi => fj then

Confidence（fi => fj） = P（fj / fi）

=count （ fj 错误！未找到引用源。fi ） / count （ fi ）

If Confidence（fi => fj）>=Min_Confidence then

Sr = Sr 错误！未找到引用源。（fi => fj）

Else

Delete the rule

End

基于此算法，有高度关联的规则会被抽取出来。例如：模式Pi ={BG，HK，JT}，其子集是{ BG，HK }，{ HK，JT }，{ BG，JT }，{ BG }，{ HK}，{ JT }，由这些非空子集构成的关联规则如下：

BG - HK=> JT Confidence=（0.75/0.75）*100%=100%

HK - JT => BG Confidence=（0.50/0.75）*100%=58.8%

BG - JT => HK Confidence=（0.50/0.85）*100%=66.66%

JT => BG - HK Confidence=（0.75/0.85）*100%=88.23%

BG=> HK - JT Confidence=（0.50/0.90）*100%=55.55%

HK => BG - JT Confidence=（0.40/0.85）*100%=47%

尽管最小置信度设定为60%，但是BG- HK =>JT，BG-JT=> HK 和 JT=>BG- HK是更重要的规则，因为BG- HK =>JT的置信度为100%，这是最有效的关联规则之一。

3.4 知识表示

针对生成的关联规则，通过专家访谈和查阅资料，我们解析成容易理解的重要规律，为教练比赛排兵布阵提供科学依据。以关联规则BG-PS =>JT为例，如果投手投出一个反弹球，击球手采取横甩方式击打的话，那么击球手触地得分的概率为100%。

4 实验结果与分析

4.1 实验结果

以印度著名板球手萨钦泰杜尔卡为例，为了发现与他有关的重要信息，将对该队员所有的频繁模式进行分析，挖掘出隐藏在模式间的关联规则，同时进行科学的解释。本文最小置信度设定为80%，生成的关联规则如表3所示。

表3 关联规则挖掘结果

4.2 规则分析

从以上结果可以看出，

A.萨钦泰杜尔卡把反弹球击打到正后外野的得分率在80.82%，但这种打法并不能保证一定得分。根据本文的分析，如果他能训练对反弹球采取横甩的打法，则更有可能触地得分，增加获胜的机会。

B.萨钦泰杜尔卡击打短球而得分的，97.18%是在正后内野区。但是这种重扫击打方式并不多见，所以对得分率的影响微乎其微。

C.当面对高抛球时，如果采取重击打法，触地得分的几率为100%，同时又有全取6分的机会。这足以说明，如果这种打法训练好的话，成绩肯定会大幅提高。

在本文中，我们提出了一个高效的数据处理方法和频繁模式生成方法，该方法被证明可以胜任。通过主成分分析，降低了数据库的维度，从而进一步提高数据挖掘的效率。在无重复扫描和交换负载的前提下，利用频繁模式生成算法提取所有的频繁模式。同时，挖掘过程产生的知识更有价值和建设性，为教练的技战术部署提供了重要参考。

【参考文献】

[1]高洪歌，赵会群. 关联规则挖掘在乒乓球比赛技战术分析中的应用[J]. 北方工业大学学报， 2006， 18（1）： 15-19.

[2]赵会群，孙晶，花勇民，等.数据挖掘技术在体育比赛技战术分析中的应用研究[J]. 北京体育大学学报， 2010， 31（5）： 712-715.

[3]Bhandari， Edward. Advanced Scout： Data Mining andKnowledge Discovery in NBA Data[J]. Data Mining and Knowledge Discovery， 2012，20（3）： 121-125.

[4]Smith et al. "Prediction of CY young award winner of base ballgame： Bayesian based classifier approach [N]. white paper， 2013-5-16（1）.

关联规则挖掘在板球比赛技战术分析中的应用研究

文档上传者

热门标签更多>

热门推荐更多>

精品范文更多>

关联规则挖掘在板球比赛技战术分析中的应用研究

文档上传者

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>