基于二次聚类和隐马尔可夫链的持卡消费行为预测

时间:2022-05-29 01:18:53

基于二次聚类和隐马尔可夫链的持卡消费行为预测

摘要:银行卡支付在社会消费行为中占很大比例,在促进经济增长中发挥重大作用,因此,预测持卡消费行为具有重要意义。然而,传统方法难以有效应对复杂数据和动态变化。为此,提出基于二次聚类和隐马尔可夫链(HMC)理论的个体消费行为预测方法。首先,对消费行为按照序列进行模式聚类,并引入惩罚聚类进行二次聚类,对序列模式中的层次状态进行平衡划分;其次,利用HMC来估计序列中消费层次的状态转移,对用户的未来消费行为进行预测。最后,通过实验比较分析传统聚类、无惩罚序列聚类和带惩罚项的聚类结果表明,提出的基于二次聚类和隐马氏链的方法更适用于消费者行为预测。

关键词:

二次聚类;惩罚聚类;隐马尔可夫链;持卡消费;行为预测

中图分类号: TP18 文献标志码:A

0引言

当今,社会消费品零售总额中约有四分之一是用银行卡支付的。截止2014年底,我国银行卡发行量已经接近50亿张,各季度的非现金支付额度也已突破数百万亿,比上年度都有较大的增长。据中国银联测算,银行卡的使用能拉动全国居民消费的增加,带动国内生产总值(Gross Domestic Product, GDP)的提升。这些数据表明,银行卡在刺激消费、拉动内需和促进经济增长方面发挥着巨大的作用。与此同时,很多卡不明原因减用或停用也促使银行经营者意识到需要精耕细作、深入考察持卡消费者的消费情况,准确把握消费结构和变化规律,生成有见地的知识决策,因此,建立基于持卡用户真实消费特征的预测模型是银行业了解用户消费行为特征和理解消费特点的基本途径,也是逐步实现由需求拉动客户满意与客户忠诚的长远管理规划。

持卡消费者行为价值是客户关系管理中的核心概念。目前有不少消费模型,如谭涛等[1]提出的两阶段模型,郭爱君等[2]提出的

近似理想的消费系统(Almost Ideal Demand System, AIDS)模型。这两种模型均对农村居民消费行为进行了模拟和分析,但其分析的数据是已经发生的消费行为,并不对未来行为进行预测。比较典型的消费者价值模型是RFM(RecencyFrequencyMonetary)行为度量模型[3-4],该模型采用银行业务系统中消费者最近消费时间(Recency, R请补充R、F、M所代表的完整英文单词。RFM是此3个英文单词的缩写吧,请明确。)、消费频数(Frequency, F)和消费金额(Monetary, M)三个变量定义客户的消费价值。该方法首先将连续的RFM数据离散化为几种状态级别类型,计算相应类型的概率分布及其时间变化,并根据RFM级别对消费者行为特征进行价值聚类,从而把握用户的分群消费价值结构。

马尔可夫链(即马氏链)由俄国科学家最早提出,在实际中有广泛的应用[5-6]。在众多消费预测模型中,其中比较典型的一种方法即是基于马尔可夫链的方法,即基于RFM状态的马氏链转移参数预测模型[7]。该模型考虑了多时期RFM消费价值结构的变化,给出了用户价值的两阶段参数预测方法,但该方法主要存在如下三方面的缺陷:

1)模型仅适用于具有简单结构的数据,不适用于复杂结构的数据。传统消费层次聚类假设个体消费者行为独立,难以捕捉到个人消费习惯对于消费行为的影响,没有将变化和走向相似的序列共同考虑,结果很难产生精准预测。

2)消费行为如购买金额和消费频率常常呈现严重的右偏分布,即一些数据的偏度很大,模型参数估计不稳定。

3)传统的马尔可夫链方法假设消费状态与消费行为相同,忽略了不同的消费状态在动态演变中对消费行为产生的影响。

隐马尔可夫链(即隐马氏链)[8](Hidden Markov Model, HMM)是一种典型的统计机器学习方法,它是观测马氏链模型的延伸。传统观测马氏链认为观测和状态是统一的;而隐马氏链则认为观测和状态是分离的,每个观测部分由状态决定。隐马氏链在多个领域得到成功应用:蔡文学等[9]将其应用于轨迹定位,朱旭东等[10]应用隐马尔可夫链进行异常检测,Choo等[11]则在基因检测中引入HMC。

为了得到更为客观的、更有预测性的消费结构,本文提出基于二次聚类和HMC理论的个体消费者结构预测方法。该方法以消费者多期消费行为观测数据为起点,首先,对消费行为按照序列进行模式聚类,并引入惩罚聚类进行二次聚类,对序列模式中的层次状态进行平衡划分;其次,基于HMC估计序列中消费层次的状态转移,对用户的未来消费行为进行预测;最后,通过实验比较分析表明,与传统聚类、无惩罚序列聚类相比,本文提出的基于二次聚类和隐马氏链的方法更适用于消费者行为预测模型。

1本文方法

本章将建立消费者价值行为预测模型,即采用HMC模型,并对模型中的参数进行训练计算。在此之前,首先对数据采用序列聚类和惩罚聚类方法对序列模式中的层次状态进行平衡划分。模型建立框架如图1所示。

1.1用于持卡消费行为的二次聚类

为了更准确地预测消费行为,即对数据进行聚类的组合分析,在对数据进行序列模式分解的基础上,引入惩罚聚类对数据消费层次划分。

1.1.1序列聚类

问题的基本概率框架是有限混合分布:

其中:S表示一个序列;wj表示第j个模式的权重;pj(S|θj)表示在第j种序列模式下S序列的分布密度,θj代表了第j种模式,每一种模式都代表了一种消费者类型,每一种消费者类型都由一个隐马氏链定义了消费层次的转移,以及每个消费层次的特征。

为了能对持卡消费行为进行序列模型分解,在此参照美国、日本业界领先的消费者生活形态的分类研究模型,定义在消费研究中比较受关注的六类序列,即k=6:成长型消费者(S1)、衰减型消费者(S2)、起伏倒U型(S3)、跳跃型消费者(S4)、记忆型消费者(S5)和起伏型U型(S6),典型实例如图2所示。

上一篇:《材料性能学》课程教学改革与实践 下一篇:煤矿矿井基本建设工程项目管理研究