0 引 言
CRM是客户关系管理的简称,以客户为中心的生产模式正在显示出强大的市场效益。在比较常见的分类形式中,CRM被分为操作型CRM和分析型CRM,无论哪一种,实现对客户更为详尽的了解,提高企业运营的效益是最终目标,于是对客户的数据挖掘在CRM系统中的核心地位凸现出来。
在竞争激烈的商业时代,资源占有成为决定企业生死成败的关键。在客户关系方面,企业总希望建立与客户最稳固的关系,并最有效率地把这种关系转化为利润,即留住老顾客、发展新顾客并锁定利润率最高的客户,这也就是CRM要重点研究的问题。为了实现这个目标,企业就需要尽可能地了解客户的行为,但这种了解不可能通过与客户接触直接获得,因为企业不可能挨个与客户交谈,而且企业所需要的信息单个客户往往无法提供。企业所能做的,就是尽可能收集顾客的信息,借助各种分析方法,透过无序的、表层的信息挖出内在的知识和规津,这就当前十分流行的数据挖掘技术所研究的。在挖出大量信息之后,企业就可以根据这些规律或用这些信息设计数学模型,对未发生行为做出结果预测,为企业的综合经营决策、市场策划提供依据。
1 数据挖掘
所谓数据挖掘,就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD最核心的部分。数据挖掘是一个集统计学、人工智能、模式识别、计算机科学、机器学习等多种学科为一体的产物,不仅是数据库系统和机器学习研究的重要课题,还是孕育了巨大的商业前景的重要领域。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多数的研究都集中在数据挖掘算法和应用上。需要说明的是,有的学者认为,数据挖掘和知识发现含义相同,表示成KDD/DM。它是一个反复的过程,通常包含多个相互联系的步骤:明确问题,选择数据,数据预处理、模型建立,选择算法,发现知识,知识评价与反馈,知识的应用等一系列过程。实际上,人们往往不产格区分数据挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。本论文采用数据挖掘的概念,挖掘步骤图1所示:
图1 数据挖掘步骤
数据挖掘采用荃于发现的方法对海量的数据进行知识发现或采掘,目的是发现隐含在数据中人们不知道的知识,从而科学地辅助人的决策。数据挖掘重点解决的问题是发现隐含在数据,扫的知识,从而指导人们的行为和思维,提供决策支持。数据挖掘的目标和相应算法下面给子简单介绍。
(1)依赖关系
关联规则一般的算法采用Aprio算法,除此外还有FpTree、DIC算法等。扩展开来,还有多堆关联规则,可以从不同概念层土提取关联规则。另外,关联规则发现的思路还可以用于序列模式发现。除了具有上述关联规律,还有时间上或序列上的规律。
(2)分类
分类在数据挖掘中是一项非常重要的任务,分类的目的是学会一个分类函数或分类模型(也常常你作分类器),该校型能把数抓库中的数据项映射到给定类别中的某一个。分类器的构造方法有统计方法、机器学习方法、神经网络方法、统计学习方法等等。粗糙集(roughset)作为一个种新的分类方法,其知识表示是产生式规则,if……,then……。由于它的规则表示和严密的数学理论作基础,它的理论和应用成为最近热点研究问题。
(3)聚类
聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
(4)偏差分析
偏差分析也成为孤立点分析,可以在众多的数据、对象或模式中发现与多数数据、对象或模式有显著差异的、异常的或不一致的数据、对象或模式,偏差分析可以帮助人们找出异常,进而研究异常后面隐藏的原因。
偏差分析方法可以分为3类,统计学方法,偏于距离的方法和鉴于偏移的方法。
(5)预测
预测是通过以往数据的分析,找到规律、来预计未来的趋势。常用方法有时间序列,回归分析等。
2 粗糙集理论与算法
粗糙集理论(Rough set theory)是由Pswlak.Z于1982年提出的,这一理论为处理具有不精确和不完全信息的分类问题提供了一种新的框架,归纳起来,它具有如下待点:(1)从新的视角对知识进行了定义。把知识看作是关于论域的划分,从而认为知识是具有粒度(granularity)的。(2)认为知识的不精确性是由知识粒度太大引起的,(3)为处理数据(特别是带噪声、不精确或不完全数据)分类问题提供了一套严密的数学工具,使得对知识能够进行严密的分析和操作。由干以上这些特点,目前。粗糙柒理论已广泛应用于机器学习、故障诊断、控制算法获取、过程控制以及关系数据库中的知识获取等各种应用领域,并取得了很大成功。
粗糙集理论的规则提取算法一般是下面的流程:
图2 粗糙集理论算法流程图
基于属性重要性的属性约简算法是由Hu在1995年提出的启发式算法,算法中利用了启发信自属性重要性。算法先求出了信息表的核,然后根据属性重要性选抒属性,直到可以和原始信息表的分类能力达到一致。然后,对已经存在的属性集进行检验,只要不是核,一个个按照先进光出的顺序去掉,如果分类能力下降,不能去掉,仍需要加入约简集。检验后,得到约简属性集。这时候得到的约简属性,不一定是最简属性集,但是是相对最简属性集。经过试验,很多情况下找到最简属性集。
算法:基于属性重要性的属性约简算法
输入:信息系统(U,A∪d),共中A=∪ai,i=1,…,︱A︱
输出:约简集Red
对于上述算法,首先要先求出分辨矩阵。然后根据在核基础上,不断的挑选重要性最大的属性进入约简集中,最后对于约简集进行检测,逐个去掉属性看是否影响依赖度。经过上述过程、可以求出约简属性集。
在如上流程中,属性约简过程中,最简属性约简集的求法是NP难题,因为它属于组合优化,本文不做讨论。实践表明,在约简属性后,选择一个好的规则提取算法,可以减少规则冗余,获得更简洁的规则集。管红波提出了一个在约简表中提取规则的算法IADT,并用例子说明该算法的效率。IADT算法详细见《系统工程与电子技术》2004(3)。
3 DM与CRM
在CRM中,数据挖掘是从大量的有关客户的数据中挖掘出隐含的、先前禾知的、对企业决策有潜在价值的知识和规则。
(1)客户特征
数据挖掘的第一步就是挖出顾客的特征描述。企业在了解客户信息方面永不满足,他们不仅会想方设法了解顾客的地址、年龄、性别、收入、职业、教育程度等基本信息,对婚姻、配偶、家庭状况、疾病、爱好等等的收集也是不遗余力。也由于这个原因,在谈到CRM的时候,个人隐私便成为一个敏感话题。
(2)黄金客户
通过客户行为分析,归类出消费额最高、最为稳定的客户群,确定为“黄金客户”。针对不同的客户档次,确定相应的营销投人。对于“黄金客户”,往往还需要制定个性化营销策略,以求留住高利润客户。
(3)客户关注点
通过与客户接触,收集大量客户消费行为信息,通过分析,得出客户最关注的方面,从而有针对性地进行营销活动。
(4)客户忠诚度
得出客户持久性、牢固性及稳定性分析。对于高忠诚度客户,要往意保持其良好关系,对于低忠诚度客户,要么不要浪费钱财,要么就下大工夫把他们培养成忠诚客户。4 基于RS的CRM分析模型
4.1 客户细分
按照一般CRM规律,80%的利润来自于20%的客户,所以对客户分类可以明确具休的销售策略,可以将客户分为大客户、重点客户和普通客户等等。客户分类可以采用很多策略。根据分类结果进行不同方式的销售策略:比如增值销售或交叉销售。
4.2 客户流失分析
根据流失客户的资料,分析客户特征和客户行为模式,然后提取到主要影响客户的因素,从而对现有客户数据进行预警,达到保留客户的目的。
首先对流失的客户有关基本数据进行分析,粗糙集在属性约简的过程中,就是寻找客户主要特征的过程,客户主要特征提取后,利用主要特征属性和相应的决策规则对现有客户数据进行流失评价,达到预警目的。
4.3 客户响应模型
组织客户活动,比如会议、电话、邮件等等形式的活动,对发出的邀请的客户资料进行分析,响应的和未响应的客户资料进行分析,从而指导下次的活动。
5 总结语
在CRM中,数据挖掘是从大量的有关客户的数据中挖掘出隐含的、先前未知的、对企业决策有潜在价值的知识和规则。本文讨论了基于RS的CRM模型,采用RS工具建立了分析模型,在分析型CRM上面进行了有益的探索和尝试。
CIO之家 www.ciozj.com 公众号:imciow