客户分析与统计建模

客户分析与统计建模

作者:师大云端图书馆 时间:2015-11-04 分类:期刊论文 喜欢:2337
师大云端图书馆

【摘要】客户分析主要指利用客户已有的购买数据和相关的市场信息,在一定理论的指导下建立统计学模型,从而对客户行为进行描述和预测。客户行为主要包括有购买频率和单次买数量等。在过去的几十年里,客户关系管理逐渐成为了企业商业行为的重要组成部分(Netzeret.al,2008),这就使得客户分析越来越被重视。客户关系管理主要包含以下市场决策:(1)瞄准高价值客户;(2)决定营销资源的配置;以及(3)区别对待客户从而提高利润率(Kumaretal.,2008).为了确保客户关系管理的成功实施,企业需要对其客户进行细致分析,挖掘更多更有用的信息,从而回答以下关键问题。●企业一共拥有多少客户?●哪些客户更容易离开该企业,即,停止从该公司购买商品?●客户未来的交易水平如何?●客户是如何响应企业的营销行为的?前两个问题需要企业预测客户的生命周期,也即客户活跃的时间。第三个问题则要求企业能够预测客户未来的交易频率以及每次交易的交易量。最后一个问题针对客户对于市场营销活动的反映,比如广告,优惠券等是否刺激了客户的消费行为。这些问题的答案将有助于企业估计客户的生命周期价值,而这时客户关系管理里一个重要的数量。客户分析的普及也得益于如今数据储存和处理成本的下降以及快速发展的信息技术(DanaherandSmith,2011).数据市场在过去的几年里有着非常明显的发展。全球互联网数据中心的市场规模已经上升了28个百分点。如图1所示,截至2012年,全球市场规模已经达到了255.2亿美元,其中亚洲市场所占份额越来越高。在中国,有超过1300家公司从事于互联网数据服务,2012年的总市场份额达到了137.2亿美元(图2)。从这些数据可以看出,对于企业而言,搜集和整理数据将更为轻松,这加大了企业挖掘客户数据的意愿,从而在另一方面刺激了客户分析的应用和推广。用统计建模的方法来分析客户行为基于一个直观的思想,即过去能够反映未来。统计建模的过程就是去寻找某一个或某些个特征使得客户过去的行为和其未来的行为能够联系在一起(FaderandHardie,2009).因此,总体上来说,客户分析主要包含两个步骤:第一步是根据客户过去的行为寻找到关键特征;第二个则是用该特征去预测未来的交易情况。详细来说,它可以被拆解为以下步骤。首先,对于一个特定的客户数据,并非每一种模型都适用。因此,在建模之前,研究者需要理解该数据的组成。比如,该数据中是否还有客户基本面信息,是否记录了客户每次购买所花费的金额等等。在多数情况下,数据需要被再处理成建模所需要的形式。例如,在建立BG/NBD模型(Faderetal.,2005)的时候,我们需要每个客户在观测时间里的购买次数,最后一次的购买时间和观测时长。然而,通常来说,数据以txt格式呈现,并按时间记录每一次交易,因而需要被再整理。在得到整理后的数据以后,相关的统计学模型则需要被建立来模拟客户的购买行为,比如购买频率,流失过程,等等。这一建模过程通常涉及到几个对购买过程和客户异质性的假设。在BG/NBD模型中,购买时间间隔被假设为指数分布,流失过程被假设为服从几何过程,而客户异质性则用gamma分布来描述。除了过往交易数据,市场信息(包括优惠券,广告等)也可以被放入模型中来提高预测的准确度。在第三步,研究者需要估计在上一步骤中涉及到的模型参数。极大似然估计和马尔科夫链蒙特卡洛抽样是两种常见的参数估计方法。根据解析形式的似然函数是否可以得到,研究者可以在两者之间进行选择。AIC信息准则即Akaikeinformationcriterion,是衡量统计模型拟合优良性的一种标准最后,利用已经估计的参数和相关模型,客户未来的交易行为可以被预测,比如预测客户未来一段时间里的期望交易频率,从而得到企业在未来一段时间里的期望销售数量。如果模型允许,研究者还可以得到许多管理学上的启示,例如客户购买是否具有周期性。过去已有许多研究者利用统计建模的方法来分析客户行为。这些研究按照其目的可以被大致分为三个方面:预测客户流失,预测客户购买频率和预测客户购买数量。本文主要针对前两个方面。BG/NBD模型是预测客户购买频率的一个重要模型,也是基准模型。该模型是在Pareto/NBD模型的基础上发展而来。Pareto/NBD模型由Schmittleinetal.(1987)建立的,在该模型中,客户购买频率被假设为negativebinomialdistribution,即gamma混合的Poisson分布;而客户生命周期则被假设为Pareto分布,即gamma混合的exponential分布。Pareto/NBD模型的最大缺点在于它不易于被企业采用,因为参数估计的过程涉及到对hypergeometric函数的重复计算,使得模型的应用变得复杂。针对这个缺点,(Faderetal.,2005)建立了BG/NBD模型。在该模型中,客户被假设为只在每次购买结束后做出是否离开该市场的决策,从而客户流失过程服从geometric分布,而非Pareto/NBD中的exponential分布。该geometric分布的参数被假设为在客户群中服从beta分布,从而客户流失过程被描述为一个beta-geometric(BG)过程。BG/NBD模型可以用简单的办公软件,比如MicroExcel,来实现,因而在工业界和学术界中有着广泛的应用。除了以上两个模型,针对客户行为的不同特点,研究者们还建立其他许多类型的统计学模型。本文则考虑到过往研究里一直被忽略的两个问题,客户购买的星期效应,以及客户的异质性。客户购买行为的星期效应是指客户两次购买的时间间隔倾向于以星期为单位。为了更好的说明这一点,作者选取了一个记录名为”Kiwibubble”的产品推广销量的数据。在一年的时间里,267名客户一共购买了745次,制造了514个购买时间间隔。图3为这514个购买间隔的直方图。从该图中可以看出,购买时间间隔为7,14,…,的频率要明显高于其周围的值,这说明了客户在上一次购买后,有更大的概率在7的整数倍天进行下一次的购买。该图也显示了客户行为具有以星期为单位的周期性。在每一个[7i-3,7i+3],i=1,2,…,的周期里,客户数量随着购买时间间隔接近7i而上升,随着其远离7i而下降。形成这种星期效应的一个可能的原因是人们只在周末才有时间去超级市场采购物品。现如今,工作时日通常以星期为单位,这也就不奇怪观测到客户以星期的整数倍为间隔来进行购买。星期效应也有产生于企业的周期性商业行为。比如,采购员可能以星期为单位检测公司的库存情况,从而决定是否买进更多的原材料。过去的研究都是直接对购买时间进行建模,采用的分布通常为exponential分布,Weibull分布和generalizedgamma分布等。在本文中,为了模拟星期效应,作者将购买时间间隔分为两个部分,即周部分和日部分。客户在t天以后的购买,则被描述为客户在距离上次购买的w周d天后进行下一次交易。其中,C=7*W+d,W:0,1,2,注意到,当w>0时,d的取值范围为[-3,3]的整数,当w=0时,d只可以取1,2,3三个值。通过该公式,一个客户在t天以后购买的概率就是购买时间包含了w周的概率乘以购买时间在w周第d天的概率。P(t)=P(w)P(dlw)由于周部分的定义域为非负整数,所以在本文中作者采用了Poisson分布和negativebinomial分布来模拟周分布。对于Poisson分布,作者假设其参数服从gamma分布。因而对于一个随机选取的客户,其周部分服从negativebinomial分布(NBD)。Negativebinomial分布可以被看作是Poisson分布的一个延伸,经常被研究者用来描述相对分散的非负整数的分布。Negativebinomial分布含有两个参数,一个是允许的实验失败次数r,一个是每次实验成功的概率θ。为了描述客户的异质性,作者假设e服从beta分布。从而对于一个随机选取的客户,其周分布服从beta-negativebinomial(B-NBD)分布。对于日部分,本文采用了多元logistic回归来模拟d=-3,-2,…,2,3的概率。对于客户流失过程,作者采用了与BG/NBD模型相同的设定。即,客户在每次购买结束后决定是否还继续购买,如果不继续,则永久离开该市场。客户流失的概率假设为p,其异质性通过beta分布来实现。从而,对于一个随机选取的客户,其生命周期服从beta-geometric(BG)分布。综上所述,作者针对星期效应建立了两个模型,一个是BG/NBD-logit模型,一个是BG/B-NBD-logit模型。极大似然估计被用来估计模型参数,蒙特卡洛模拟则被用来预测客户未来的购买行为。用来实验的数据记录了一个名为”Kiwibubble”的新饮料的销售。这个观察期为1年,在此期间内267名顾客,一共进行了745次购买。为了证明模型的有效性。作者将这个观察期平分为拟合期和预测期。建模的目的就是用前26周的购买数据来预测未来26周的客户的购买行为。BG/NBD-logit模型的AIC信息准则和BIC信息准则分别求得为3246.9和3289.9,而BG/B-NBD-logit模型的分别为3120.1和3166.8。这说明了后一种模型提供了比前一种更好的拟合性。为了进一步说明模型的拟合性质,作者描绘了这267名客户在拟合期的期望累计购买数量和期望每周购买数量(图4和图5),并与真实情况进行了比较。如图所示,和BG/NBD模型比起,作者提供的两种模型都具有更好的拟合性。表1和表2是与图4和图5相关的平均绝对百分误差,可以看出,新模型的在跟踪前26周累积销量方面具有更小的误差。客户分析最主要的任务是对现有客户未来的表现进行预测。为了说明新模型如何提高预测精度,根据客户在拟合期的表现,作者计算了客户在预测期的期望购买数量,并与真实情况进行了比较。如图6和图7所示,所有模型的准确度都有下降,然而新模型精度的降低小于基准模型。表3和表4的平均绝对百分误差进一步说明了在考虑了星期效应的情况下,客户行为能够被更加有效的描述。总体说来,在考虑了星期效应之后,新模型在数据拟合性和预测性方面都得到了提升。企业的商业决策也应该考虑到客户的这种周期性。这篇文章研究的另一个问题有关于客户的异质性假设。因为客户与客户之间存在着年龄,收入,职业等的差异,因而他们在对同一产品的喜好和使用时不同的,这就导致了他们在购买行为呈现出异质性。可能有的客户购买频率很高,而有的客户只是偶尔才光顾该公司。这种异质性通常是通过假设模型参数在客户之间服从某种分布来把握。比如,在BG/NBD模型中,客户购买速率上的异质性就通过假设Poisson分布参数服从gamma分布来实现。过往的研究中出现过的异质性分布包括gamma分布,normal分布,log-normal分布,beta分布等等。这些分布的一个重要特点就是他们在这个定义域上只存在一个局部最大值。从其概率密度函数图上来看,这体现为密度曲线只呈现一个高点。当研究者使用这些单峰分布的时候,就潜在地假定了大多数客户的购买行为将集中在曲线最高值附近。客户频率将向最高值两边逐渐减少。然而,在现实中,客户的组成要更为复杂,从而单峰异质性假设会失去其效用。为了说明这一点,作者进行了一个模拟试验。在该试验中,客户行为的设定与BG/NBD模型基本一致,即,满足以下五个假设。假设1:当客户依旧活跃时,客户的购买时间间隔服从exponential分布,参数为μ。假设2:在每次购买结束后,客户有p的概率不再购买该产品。假设3:参数μ服从混合gamma分布。假设4:参数p服从beta分布。假设5:参数μ和参数p相互独立。可以看到,与BG/NBD设定不一样的地方在于假设3。这里作者让μ服从混合gamma分布而非单一的gamma分布,其实是假定了该客户群来自于两个群体,每个群体所占的比例即是混合分布中对应的权重值。作者组织了两组共10个模拟试验,结果表明,当客户明显由两个群体组成时(两个群体所占的权重接近),原BG/NBD模型的精确度显著下降。而在本文中,为了解决这一问题,作者对BG/NBD模型进行了延伸。新模型维持了原模型大部分的形式,主要改变在于exponential分布的参数被假设为服从混合gamma分布。作者指出该延伸不仅保留了原模型易于应用和估计的特点,而且成功地考虑了客户的复杂组成。因为本文中作者只混合了两个gamma分布,因而称新模型为BG/NBD-2模型。对于混互模型,混合权重的确定十分关键。在本文中,作者让混合权重从0开始,按0.05的间隔,逐渐加大到0.5,从而生成11个模型。这11个模型将逐个被拟合到数据中,拥有最优AIC信息准则的那个模型将被采纳。为了验证该模型的效用,作者采用了CDNOW数据。该数据记录了一个名为CDNOW的网站在一年半的时间里出售DVD的情况。该数据包含了23570名客户,这些客户在69660次交易中购买了超过163000张DVD。同Faderetal.(2005)-样,十分之一的客户被抽样出来组成新的样本。前39周被选为拟合期,剩下的另一半作为预测期。极大似然估计被用来估计BG/NBD和BG/NBD-2模型的参数。模型的拟合表现通过两个数量值来体现。首先,作者计算了在拟合期间购买0,1,.,7+次的期望客户人数,并与实际情况进行比较。如图8所示,新模型在拟合方面表现更好,因为它所估计的人数与实际人数更为接近。此外,客户在拟合期的期望累积购买量也被计算出来。如图9所示,两个模型的表现一致。新模型在该统计量上的平均绝对百分误差为6.28%,与BG/NBD模型的6.37%十分接近。为了验证模型的预测精度,作者计算了客户在预测期的条件累积购买数量,并与实际情况进行了对比。新模型在此项上的平均绝对百分误差为7.09%,比BG/NBD导致的11.88%的误差要小。这说明了新模型比原模型能更好地预测客户未来的购买行为。新模型的优越性还通过另一个统计量得出。作者计算了在拟合期购买×(x=0,1,..,7+)次产品的客户在预测期的平均购买频率。其与真实情况的比较如图11所示。综上所述,(1)无论是BG/NBD模型,还是BG/NBD-2模型,都提供了很好的拟合性。(2)对于两个模型,其在模拟累积购买频率时,所产生的平均绝对百分误差在拟合期大于预测期,说明随着时间的推移,模型精度在下降。(3)新模型精度在时间维度上的下降要小于BG/NBD模型。
【作者】刘帆;
【导师】华中生;
【作者基本信息】中国科学技术大学,管理科学与工程,2014,博士
【关键词】customer-baseanalysis;statisticalmodeling;customerlifetimeval-ue;MonteCarlosimulation;maximumlikelihoodestimation;mixturedistribution;

【参考文献】
[1]汤智斌.和谐社会指数的构建及应用研究[D].湖南大学,应用经济学,2014,博士.
[2]张成.金属基超疏水表面的一步法制备及耐蚀性研究[D].大连理工大学,化学工程(专业学位),2013,硕士.
[3]时本禹.逯瓦房委卫生所管理系统的设计与实现[D].吉林大学,软件工程,2014,硕士.
[4]苏红.西安市城市交通拥堵问题研究[D].长安大学,行政管理,2013,硕士.
[5]姜凯.基于门限处理的信道估计算法研究[D].天津理工大学,通信与信息系统,2013,硕士.
[6]彭倩倩.凤台方言助词研究[D].西南大学,汉语言文字学,2014,硕士.
[7]袁猷江.武警总队信息安全风险评估研究[D].南昌大学,计算机技术(专业学位),2012,硕士.
[8]焦耀光.工业发展与环境保护同步[D].西南交通大学,工商管理(专业学位),2012,硕士.
[9]赵汝德.X市轨道交通X号线X站土建工程进度管理研究[D].西南交通大学,项目管理,2012,硕士.
[10]付湘琼.基于代理的分布式入侵检测系统的设计与实现[D].昆明理工大学,2003.
[11]郑秋.轿车齿形离合器毂体冲锻成形工艺研究[D].华中科技大学,材料加工工程,2013,硕士.
[12]李宝林,王秀峰,兰芸,段菲.用数据挖掘技术进行中文地址解构的新方法[J].计算机工程与应用,2003,13:72-74+87.
[13]牛筱.玉米体细胞胚胎发生相关基因ZmSERK的研究[D].吉林大学,植物学,2014,硕士.
[14]张风芝.维生素A和B_2及铁补充对改善孕妇贫血及免疫功能影响的研究[D].青岛大学,营养与食品卫生学,2004,硕士.
[15]郑琳.中国传媒上市公司高管薪酬激励机制研究[D].宁波大学,工商管理(专业学位),2014,硕士.
[16]尚学群,沈均毅.基于SQL的不产生候选集的频繁模式挖掘[J].计算机应用,2004,01:92-94.
[17]王光军.集体土地“以租代征”问题与对策研究[D].南京农业大学,公共管理,2013,硕士.
[18]徐朴.格瑞卫康──家具甲醛污染的解决之道[J].家具与室内装饰.2002(02)
[19]李志,程美山,张文泉.市场营销理论方法演进及应用[J].中国电力教育.2007(08)
[20]黄福祥.人体组织液中葡萄糖浓度的精密检测技术研究[D].天津大学,2009.
[21]周金.GNSS系统弱信号捕获技术研究[D].广东工业大学,通信与信息系统,2014,硕士.
[22]李娜.猪链球菌2型烯醇化酶增强血脑屏障通透性的作用及其机制[D].吉林大学,预防兽医学,2014,硕士.
[23]李旭.无线电汽车防追尾告警技术研究[D].西北工业大学,信号与信息处理,2004,硕士.
[24]刘向红.论中学生的科学—人文精神教育[D].湖南师范大学,教育,2004,硕士.
[25]立早.地球物理反演学术讨论会在上海举行[J].石油地球物理勘探,1987,01:107.
[26]胡迎兰.水胶体医用敷料的制备与性能研究[D].湖北大学,高分子化学与物理,2012,硕士.
[27]王宗武.基于用户聚类的协同推荐算法研究[D].广东工业大学,计算机应用技术,2013,硕士.
[28]王程程.基于Android的图像浏览客户端设计与实现[D].吉林大学,软件工程,2012,硕士.
[29]杨雪.《BUTTON BOX》互动包装设计体验报告[D].山东工艺美术学院,艺术设计,2014,硕士.
[30]陈宏伟,袁国斌.基于多智能代理的分布式决策系统实现[J].计算机应用研究,2002,08:46-50.
[31]姜达.基于不同运输方式竞争的高速铁路票价制定方法研究[D].西南交通大学,交通运输规划与管理,2014,硕士.
[32]兰麟舒.富有特色的南宁电信枢纽工程——南宁电信大楼[J].电信工程技术与标准化.1993(02)
[33]张文彬.电磁金属探测器的设计[D].天津理工大学,检测技术与自动化装置,2013,硕士.
[34]张琳琳.序约束下β-ARCH模型的极大似然估计[D].吉林大学,概率论与数理统计,2004,硕士.
[35]宋鹏.平朔供应公司油库IC卡加油控制系统研究[D].辽宁工程技术大学,电力电子与电力传动,2012,硕士.
[36]本报记者赵普.“概念”石墨烯疯炒[N].华夏时报,2014-06-23018.
[37]赵继东.青岛地区拓展运动发展现状及项目推广[D].山东体育学院,体育教学,2011,硕士.
[38]黄伟煌,付勋波,胡书举,许洪华.基于全功率变流器的失速型风电机组低电压穿越改造[J].电力系统自动化,2013,06:1-6.
[39]韩乾.数字时代中小学教辅出版商业模式研究[D].华中科技大学,编辑出版,2013,硕士.
[40]杨丽,周雪忠,毕斓馨,张润顺,王映辉,刘保延,谢琪.基于案例推理的中医临床诊疗决策支持系统[J].世界科学技术-中医药现代化,2014,03:474-480.
[41]韩慧.基于GPU的医学图像算法研究与应用[D].西安电子科技大学,软件工程,2011,硕士.
[42]郑平安.高性能双层碎石封层用于干线公路沥青面层的技术研究[D].长安大学,交通运输工程(专业学位),2014,硕士.
[43]马宝玉,兑关锁,阳生有.基于多项材料细观力学的混凝土干缩量预估[J].工程力学,2014,12:104-111.
[44]陈斯侃.莽山烙铁头蛇的保护生态学初步研究[D].中南林业科技大学,野生动植物保护与利用,2013,硕士.
[45]王俊丽.基于改进的混合遗传算法的排课问题研究[D].大连海事大学,计算机科学与技术,2013,硕士.
[46]吴恒吉.高速铁路无砟轨道伤损信息管理系统研究[D].西南交通大学,建筑与土木工程,2013,硕士.
[47]杜雄,周雒维,许可夫.基于双dq变换的引起电压暂降的短路故障分类[J].电力系统自动化,2010,05:86-90.
[48]张金花,张世峰,何福金.基于多模型切换的焦炉鼓风机调速系统智能控制策略研究及应用[J].冶金自动化,2010,03:10-13+33.
[49]本报特约撰稿吴康迪.石墨烯何以结缘诺贝尔奖[N].计算机世界,2010-10-25037.
[50]兰国玮.航空铝合金切削工艺数据库系统的研究与开发[D].厦门大学,机械工程,2014,硕士.

相关推荐
更多