返回列表 发帖

基于制造业的CRM的客户流失分析

基于制造业的CRM的客户流失分析

Re:基于制造业的CRM的客户流失分析

但用信息增益作为特征选择量存在一个假设,即训练例子集中的正、反例的比例应与实际问题领域里正反例比例相同。但一般实际情况并不能保证相同,因而计算训练集的信息增益就有偏差。ID3在建树时,每个节点仅含有一个特征,是一种单变元的算法,特征间的相关性强调不够。虽然将多个特征用一棵树连在一起,但联系还是松散的。

  正因为如此,我们在具体的客户关系数据处理中,目前仍处于一种摸索的阶段。但上述方法的探讨,仍值得借鉴或进一步深人研究。

  4 结语

  本文试图将数据挖掘技术中有最代表性的系统聚类分析法和决策树ID3算法思路应用于制造企业的客户流失分析,为基于制造行业的CRM的客户流失分析做一初步的探讨。对于数据挖掘遇到的个体行为数据,分别运用两种较有代表性的数据挖掘方法进行具体实验和理论方法分析比较。尝试应用聚类分析和决策树这两种有代表的数据挖掘方法融入到制造业客户流失管理的信息处理中,为制造企业针对不同客户群体提供个性化服务提供一个分析思路,为未来企业信息化竞争创建一个良好的平台。

TOP

Re:基于制造业的CRM的客户流失分析

3.5 实验规则引导结果及实验方法分析及评价

  遍历决策树,输出叶结点类属性值,ID3通过不断的循环处理,逐步求精决策树,直至找到一个完全正确的决策树。用ID3算法构造的决策树是从顶向下归纳,最后形成了一组类似IF……THEN的规则。其最原始的程序只是用来区分象棋中的走步,所以区分的类别只有两种,即真或假,其属性值也是一些离散有限的值。现在ID3算法己发展到允许多于两个类别,而其属性值可以是整数或实数,这里仅仅采用了它最原始的原则,提供一条基本分析思路。这种算法利用了互信息(信息增益)的概念,算法的基础理论清晰,使得算法较简单。该算法的计算时间是例子个数、特征个数、结点个数之积的线性函数。而且搜索空间是完全的假设空间,目标函数必在搜索空间中,不存在无解的危险。可以利用全部训练例的统计性质进行决策,从而抵抗噪音。

TOP

Re:基于制造业的CRM的客户流失分析

 假设使用变量A作为决策树的根节点,把记录集s分为子类{s1,s2,…,sk},其中每个si={i=1,2,…k}中包括个属于类P的记录。那么,用于在所有的子类中分类的信息量为:

  假设选择变量A作为分类节点,那么它的信息增量值一定大于其它信息增量值。变量A的信息增量为:Gain(A)=Info(S)-E(A)

  信息增益可通过下式计算:

  信息量:

  期望熵:

  信息增益:Gain(A)=Info(p,n)-E(A)

  重复上述步骤,分别得到各个根节点,同时计算相应属性的信息增益值。最后,根据公式计算结果得到制造企业是否需要对该潜在的流失客户实施新的服务的决策树,如图1所示。

TOP

Re:基于制造业的CRM的客户流失分析

情况1.如果P(A)=1和P(B)=0,那么知道这个变量的值一定为A,不存在不纯度,因此已知变量结果值不会带来任何的信息。

  情况2.如果P(A)=P(B)=0.5,那么它的不纯度明显地高于P(A)=0.1和P(B)二0.9的情况。在这种情况下,已知变量的结果值就会携带信息。

  不纯度的最佳评估方法是平均信息量,也就是信息熵。定义如下:设S是s个样本数据集合。假定类标号属性具有m个不同值,定义m个不同类C;(i=l,2,…,m)。设s:,是类C中的样本数,对一个给定的样本分类所需的期望信息或者信息墒为: ,其中P为任意样本属于Ci的概率,并用Si/S估计。信息增益:信息增益是指期望信息或者信息嫡的有效减少量(通常用“字节”衡量),根据它能够确定在什么样的层次上选择什么样的变量来分类。假设存在两个类P和N,并且记录集5中包括x个属于类P的记录和y个属于类N的记录。那么,用于确定记录集5中某个记录属于哪个类的所有信息量为:

TOP

Re:基于制造业的CRM的客户流失分析

3.4 决策树ID3法实验及分析

  决策树技术是用于分类和预测的主要技术,决策树学习是以实例为基础的归纳学习算法。着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性判断从该节点向下的分支,在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。

  考虑一个任意的变量,它有两个不同的值A和B。假设已知这个变量不同值的概率分配,将估测该概率分配的不纯度。

TOP

Re:基于制造业的CRM的客户流失分析

3.3 实验聚类

  根据特定产品、众多客户的统计信息中的主要属性,按照上述系统聚类实验,得到我们所需要的信息。

  基于上述个体行为数据进行聚类操作,在对未来行为的预测能力上,往往比其他类型的数据效果更好、更精准。

TOP

Re:基于制造业的CRM的客户流失分析

 3.2 系统聚类实验分析

  系统聚类法实验的基本思想是:设有n个样品,每个样品测得m项指标。然后用不同的数据表示客观数据的定量属性和定性属性。当定义或计算样品间的距离(或相似系数)和类与类之间的距离之后。可以将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他的类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都并成一类为止。这个过程再可以用谱系聚类图形象表达出来。

TOP

Re:基于制造业的CRM的客户流失分析

3.1数据源介绍

  进行数据分析首先必须从客户的数据库中间找到最能够代表和刻画客户行为的属性。针对2005一2006两年中,某企业800个购买某工程机械产品的客户信息,从中了解到导致客户流失的因素较多,但有共性的部分也有很多。因此,我们把客户与本公司交易次数、公司属性、公司资产规模、付款方式、公司所在地、产品用途作为统计信息中的主要属性。

  我们将所拥有的所有可能的客户信息属性变量转换成0,1,2等属性,其他数字变量不变,应用2一检验,选除了某特定制造企业客户流失的一般统计属性。

TOP

Re:基于制造业的CRM的客户流失分析

该方法一般分为三个步骤:第一,应用软件对数据进行挖掘测试,其中包括统一的客户资料,客户属性,购买信息,模型参数,模型等等。第二,应用数据分析方法和所讨论的数据挖掘技术对客户流失前的行为分析进行简化的知识发现。第三,应用系统聚类和决策树ID3的方法对模型应用的实验结果进行过程分析。

  常见的数据挖掘主要分为两种:即探索性的数据挖掘和验证性的数据挖掘。其中探索性的数据挖掘中最常使用的就是聚类,而验证性数据挖掘的代表就是分类。聚类分析法是一种无监督的自下而上的学习过程,主要目的是把没有“标记”的数据分为有意义的“组”(或者就叫聚类);而分类是给定已知“标记”的训练数据,然后通过学习得到描述模式,然后运用该模式对未来的数据进行分类,是一种带监督的自上而下的学习,如决策树ID3法。由于这两种类别具有一定的典型性,都可以用于数据挖掘的客户流失分析。

TOP

返回列表