当前位置:文档之家› 【参考1】用户流失模型

【参考1】用户流失模型

【参考1】用户流失模型
【参考1】用户流失模型

前面谈到了客户细分,这里说下流失分析吧

流失分析是客户细分大框架里面的一部分最重要的标签。切割用户有很多角度(例如性别、年龄等自然属性;成长状况等生命周期属性;贡献情况等价值属性;问题倾向等风险属性;消费特性等行为属性),我觉得最重要的特征是价值和风险,也就是说切割用户的头两刀应该是分开不同价值、风险倾向的用户

流失分析是获得用户风险倾向的分析,分析的结果是按照业务定义的风险类型,给用户打上不同的风险分值和风险分群

有了客户细分模型后,我们可以尝试在做更复杂模型是,进行模型的交叉,也就是说把细分等一些初等模型的结果成为重要模型的输入变量,这有利于提高精确度,最重要的是给模型的解释和实施代理很大的帮助(试想下,我们知道一个人有问题,但如果知道了这个人的细分标签,就意味着我们可以动手拯救他,而不是卧在桥头看水流)

说说流失分析的过程吧

step1-流失的界定:流失的界定是整个流失分析的重要环节,需要结合业务目的和数据状况界定流失(一般来说业务方界定的流失和技术上界定的流失不一致)。如何才算好的流失界定呢个

1、有业务含义,围绕着用户的业务目的来界定流失,例如:目的是促成用户消费,则xx天前有消费,当前没有消费的界定为流失;目的是促成用户提升价值,曾xx天前比当前消费降低50%以上的用户界定为流失

2、有稳定性:可以引入流动性分析,看用户在什么样的流失界定下,自然回复率低,也就是说如果我们不管他,他一般就挂了

3、操作性:回忆下人生(其实我也很年轻,那就回忆别人的吧,呵呵),最大的流失莫过于失去生命,如果到用户死了后再抢救有效果么??呵呵,所以我们界定的用户流失,一定是在发现流失后,有可以行动的方案

3、churn级别设定:详细分开,用户有几种阶段(好-有点问题-有问题-问题过大),我们需要在数据上给每个用户在churn中打一个级别,这对于模型学习有意义,最终使用好用户和有问题的用户对比建模,而不是用有点问题和问题过大的用户。这样有些复杂,但我对比尝试过,虽然对模型准确率没太大提升,但对模型的解释性有帮助,在稳定性上也会好一些吧

5、可以考虑定义多个流失,分别做模型:有多少种业务情况,就有多少种流失,最终可以考虑再做一个大模型,把所有的流失再封装一层

step2-变量列表:重复我个人的观点,变量列表的设计是以了解业务为基础的,每个变量都应该有业务猜测和原因。常把“变量是否有效要模型结果说了算”挂在嘴边的人,不知道技术如何,模型应用上肯定是傻子,尝试着说服他们更多的关注业务吧

1、尽量选择已有的变量,会使得变量准备的工作量小

2、按照业务内容把变量分类,综合考虑业务需要和计算量选择合适的变量;同时可以衍生一些从数据加工角度看冗余,但建模需要的变量(例如把入网时间->在网月份数)

3、确认变量获取的时间长度是否足够:对于消费总量的纯增量数据,只要系统最近没有大割接问题都不大;对于用户等级等快照变量,要想回溯快照可不是件容易的事情,要想好哦

4、已有的模型结果变量,可以作为准备变量交叉参与模型

step3-数据加工和检验:检验比加工更重要

1、数据加工不说了,有些用数据库,有人用c,有人用sas或climenting挖掘工具处理数据,都可以,没有哪个好,只有熟不熟

2、数据检验非常重要(会决定项目的成败),分成3类:单指标验证(每个指标的数据分布状况)、多指标交叉验证(指标间的大小、量级、加和等关系,需要穷举)、时间序列检验(在时间上的稳定性)--我曾经写了大约2000行代码的sas数据检验程序,可以配置的生成html 报告,感觉对效率提升很大

3、调整和反馈:这个看起来小事,实际做起来占用50%以上的数据准备时间,一般第一轮准备的变量都有问题,反馈几轮后数据加工的逻辑问题会减少,但越多会发现数据准备人员和建模人员对变量的理解不一致,没办法不熟悉模型的数据加工人员是要交学费的,只有2个选择-放弃变量或重新获取(有些重新获取是要改动底层的),抉择吧,呵呵

4、问题数据记录:数据检验后,经常发现boss数据源问题,例如银行中发现身份证年龄不足、通信行业发现boss计费或调涨错误,呵呵,记下来,考虑对哪些样本从建模和打分中排除(也能作为模型不准的时候打马虎眼的说辞,试试看??)

step-好好睡个觉,呵呵以上过程已经占用了建模60%以上的工作量(我今天也困了,改天继续)step4-模型建立:流失模型是典型的学习模型,有几个常用方法可以选-决策树、逻辑回归(有人会尝试神经网络,不利于应用和解释,也可以试试看)。

决策树的特点:适用布尔、分类和连续的变量(对连续变量也会内部转化为分类变量)、结果容易解释、筛选变量快;但决策树不稳定,容易训练过度(在训练时看起来很准确,但应用时预测准确率大打折扣)

逻辑回归的特点:逻辑回归的底层思想和多元回归接近,延续了回归算法不温不火的稳定风格,相比回归算法,logistic回归不要求变量有正态分布和等协方差前提,也可以尝试着用哑变量来融入分类变量,使用更方便,但逻辑回归准确率相对较低(所谓成也萧何,败也萧何)。和决策树相比,回归算法稳定性好的多

我习惯于:

1、使用决策树进行变量范围筛选

2、使用逻辑回归进行预测

3、个别时候尝试着用因子分析进行变量转载(我试过的模型,有时候有一点点小的提升,和变量共线性特点有关,但不会有超乎意料的收获)

step5-模型解释:我们进入了最具挑战性的阶段,这个阶段会受前面的过程中是否有很多业务思考影响,也会直接导致模型应用的成功与失败

1、变量的解释目的有2个:给业务使用方信心、推动模型的应用

2、在选择变量时多构造些容易被解释的变量

3、在筛选变量的过程中,应该去从业务角度对去留的变量进行思考,可能这样做对准确率提升帮助不大,但对模型解释非常有利

4、花多一点时间把模型的结果和业务问题做对应,好好思考下为啥xxx这样的变量留下了并且importance这么高

5、尽量使用用户可以听懂和看懂的东西讲解给用户(决策树绝对是解释模型的上选)

6、在准确率的解释上,不要太强调技术指标,讨论下准确率和盖全率就完全ok,如果能把这些指标解释为成本和收益就更ok了

step6-模型应用:如果顺利通过了模型解释,这一步需求方会催着你,否则就是你催着根本不鸟你的需求方了,呵呵--想想别人是否想用你的模型,还是取决于模型解释过程中给你打多少分喽。

1、模型应用首先依赖于业务操作人员,一个漂亮的模型如果无法被业务人员使用、操作起来,而只停留在报告阶段,非常可悲

2、其次模型的应用依赖于系统:如果模型结果可以和系统工作量绑在一起,把流失预警结果直接生成任务,那模型就真的有价值了

3、要想应用好,必须吧模型解释关联到策略或行动:在细分的基础上做流失预警,非常有效,我们可以知道谁要流失,还能看到这个人特点,就可以行动了--举个例子:如果医生告诉你你

的病了,但不告诉你病因,是不是很痛苦,呵呵--流失预警好像我们知道谁生病了,细分就好比我们知道病因

4、模型应用时会后悔建模在工程上的实施性:假设建模时用了非常复杂的变量,模型实施时一定有人会出来和你对着干--太复杂的计算参与模型,虽然在数据准备是一次性ok,但应用的时候每期都要运行,还是有压力(尤其是每天运行的时候,如果打分变量都算不出来,模型没法被应用)

step7-模型调整:如果你经过了step6才进行模型调整那说明模型在应用中出现了一些问题,恭喜你;否则说明模型没有上线就被质疑了,呵呵

1、模型应用后的调整是很幸运的事情,说明模型在被人关注。非规则模型一般不会调整,模型至少运行了数据准备时间窗口后才可能被调整,否则调整就是过拟合(例如用过去6个月的数据建模,那模型一般运行6个月以上才有可能要调整);规则类的模型,可能随着规则前提的变化被动调整(例如:新入网某些套餐的用户流失率高,如果那些套餐不再接纳新入网用户,模型就没有前提保证了,调吧,没办法,早知道不选这个变量了,呵呵)

2、模型还没有应用就调整,有2个原因:其一是模型准确率太低(其实在top20%的群体有4-5倍提升率是比较困难的),准确率低一般不是技术问题(除非你技术实在太菜了),不要幻想着换牛逼方法对准确率有本质提升,只能看看业务上是否有很大疏漏,或者尝试着换个说法解释给需求方;其二是模型解释不被用户认可--呵呵,找个业务专家一起讨论一次,你会有很大收获

3、模型调整有几种方式:根据业务情况重新界定和调整变量(你是否由于业务理解不足,缺一些重要变量)、在变量处理过程中对默认值和极值容错来提升模型(对于回归等模型这个比较重要,对决策树没关系)、对模型的建模对象进行分割(例如:对用户化妆品偏好建模时,把男人女人一起建模是不是很愚蠢啊,那就建 2个模型呗,呵呵)

第四篇-电信客户流失影响因素与预测分析

电信客户流失影响因素与预测分析 一、引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客 户流失率是近年来热门的研究领域。而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。 二、问题分析 根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。 对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。 三、算法简介 3.1分类分析 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。常见的分类方法有贝叶斯分类(Bayesian),神经网络(neural networks),遗传算法(genetic algorithms)和决策树分类器(decision trees)。在这些

车险客户流失分析方法

车险客户流失分析预测 通过建立一个关于保险客户流失的预测模型,可以分析出主要有哪些因素导致他们想要退保并可以有针对性的挽留那些有退保倾向的客户,进而节约开支。客户流失预测考虑的主要因素如下: (1)客户购买频率:客户购买保单的频率越高,说明流失率低;反之流失率高; (2)客户付费历史:交纳保费方式,有没有过欠费历史,欠费多久才补缴保费等对客户流失都具有影响; (3)客户自然属性:教育程度,职业,家庭人口,收入等等; (4)客户工作的变化:包括工作性质的变化,工资的变化,职位的变化等等; (5)客户理赔处理情况:理赔的迅速、准确就会降低客户流失率,反之会提高客户流失率; (6)竞争对手促销策略:如果竞争对手采取新的促销策略,那么就会提高客户流失率。

利用数据挖掘中的分类方法建立客户流失分类预测模型对潜在流失客户进行分析预测。分类方法是一种有监督的学习方法,它通过在客户样本数据集上建立预测模型,得到区分客户是否具有流失倾向的预测模型,预测客户未来的流失倾向。 该类研究主要应用了以下分类方法:支持向量机、人工神经网络、Logistic回归、贝叶斯网络、决策树等。 决策树模型 决策树模型 保险客户流失预测考虑主要因素可以选择决策树的方法进行客户流失的预测,选择这种方法的原因是因为这种方法得出的模型可以很容易的被人们理解。尽管其他的一些数据挖掘技术,比如神经网络也可以产生很好的预测模型,但是这些模型很难理解。当用这些模型作预测分析的时候,很难对客户流失原因有深入的了解,更得不到任何对付客户流失的任何线索。如果附加其他算法,过程会比较复杂。 在客户流失趋势的预测上,利用信息论中的信息增益赖寻找数据库中具有最大信息量的字段,作为决策树的一个节点,再根据字段的不同取值建立树的分支;再每个分支子集中重复建立树的下算法是相同的,不过在运用的场景上不同而已。通过决策树预测,可以发现特征客户群的流失比例,从而对具有相似特征的客户预测其流失趋势。为了挽留那些客户,保险公司可以有针对性的采取措施,保护自己的客户,有效的防止客户流失。基本原理是这样的,数据挖掘工具会先根据保险公司客户的基本资料进行划分,产生若干细分群,每个细分群都会有一些特征,比如客户持有的保单类型、客户教育背景等等。根据历史记录,某个细分群中,会有三个客户数。一个是该群中的客户总数T,一个是现在还活动的客户数A,最后一个是已经离去的客户数L。那么该群的客户流失率就可以用I=L/A来计算获得。 这样通过客户特征将他们分属于不同的决策树树叶中,就可以估算出他们的流失率,即流失趋势,同时,可以找出关于客户流失的主要特征。 C4.5算法的决策树构造和剪枝方法 此方法分为了两个部分:第一部分是决策树的建造过程,第二部分是决策树的剪枝过程。

Logit模型预测客户流失 - 软件测试,数据分析

Logit模型预测客户流失 - 软件测试,数据分析Logit模型预测客户流失 一、logit模型 二、logit模型应用 三、案例说明 1. 案例背景 2. SAS实现 3. Spss Clementine实现 (1)装载数据 (2)数据清理 (3)模型建立 (4)模型评价 (5)预测 4.CLEMENTINE与SAS结果比较 一、logit模型 在一般线性模型中,因变量为一个连续变量,如建立一个GDP与进出口的线性模型,GDP为一个连续变量。但在实际工作中,因变量常常为分类变量,比如性别,要么是男性、要么是女性,又如本文要解决的,对电信客户是否流失的预测。这时可以用事件的发生概率P为因变量,以影响因素作为自变量,进行线性回归分析,那么此时因变量P的取值就必须是0-1之间,一般的线性回归分析就不能满足了,logit回归可以解决这个问题。

Logit回归属于概率非线性回归,假设在自变量作用下,某事件发生的概率为P,则该事件不发生的概率为1-P,P/(1-P)为发生于不发生概率之比,记为“优势”(odds),若对odds取自然对数,得 Logit(p)=ln(odds)=ln() 称为P的logit变换,则logit回归模型为 Logit(p)=ln()= 可以看出,当P在(0,1)之间变化时,对应的logit(p)在之间变化,这样自变量可在任意范围内取值。 自变量对因变量的作用大小常用“优势比”(odds ratio,简称OR)来描述。所谓优势比 是指两个优势之比。对于某些发生率很低的事件来说,优势比可以作为相对危险度(relative risk,RR)的近似估计,即 OR= 二、logit模型应用 Logit模型全称logistic模型,主要针对定性变量(分类、有序变量)进行建模。广泛应用在医学、通信、金融业,如客户分类、客户流失预测、寻找发病因素等。 三、案例说明 1. 案例背景

移动通讯客户流失预警及挽留模型的构建与应用(doc 13页)

移动通讯行业客户流失预警及挽留模型构建与应用 2009-12-4

[摘要]文章以移动通信业为例,讨论企业如何分析客户的基本数据、交易数据和行为模式,建立客户流失预测模型,并在此基础上进行初步的流失原因分析和流失趋势预测,给出有效控制客户流失的建议。 [关键词]数据挖掘,客户流失预警,客户挽留CRM 在渐趋成熟的竞争性市场环境下,理解客户行为并做出有效反应是企业生存和发展的根本保障。客户流失是高度竞争产业中的一个普遍现象,也是束缚企业发展的瓶颈问题。迄今为止,大部分企业解决客户流失问题的主要手段还停留在经验识别的水平上;而学术界对客户流失问题的研究则主要集中在流失种类、原因和后果的定性识别上,这些研究结果和商业问题的耦合相对松散,难以在管理实践中加以应用。 数据挖掘技术的出现,有效地解决了上述问题。但现有的少数利用数据挖掘工具对客户流失数据建模的尝试,大多过分注重对算法与技术的研究,而忽视了对商业问题解决的重视。而且,这些研究并未将对客户流失研究的成果深入到客户保留领域,使得作为客户流失研究最终目的的客户保留和客户价值提升工作缺乏系统的可操作的管理体系。 1 理解客户流失与客户保留

客户流失问题是客户关系管理CRM中客户忠诚度研究的重要内容之一。早在1984年,有研究就发现获取一个新客户的成本比维持一个现有客户的成本高五倍。因此,企业应充分重视两类客户:一类是“竞争性的客户”,即那些虽然现在将本企业视为“首选”,但却认为其它某些供应商与本企业是非常类似的客户;其次是“可转变的客户”,即那些认为本企业与这些客户的首选供应商是非常类似的客户。对这两类客户应采取不同的营销手段以有效防止潜在流失,达到良好的销售效果。对客户忠诚度的研究主要集中于客户与厂商建立并保持关系意愿上。同时,一些学者认为,应对那些尽管仍然保持忠诚,却比其他人有更高的离开关系意愿和更少的保持关系意愿的客户给予特别关注。 客户流失和客户保留是一组对企业经营效益有着显著影响的概念。国外研究发现客户流失对公司的利润有着惊人的影响,远远超过公司规模、市场份额、单位成本和其它许多通常被认为与竞争优势有关的因素。因此“客户保留”应运而生,成为学术界和企业界均极为关注的问题。通过实施客户保留,客户流失率小小的降低就能导致利润可观的改善。有关方面对美国9个行业进行调查的数据表明,客户流失率降低5%,行业平均利润增加幅度在25%~85%之间。在各行业,客户保留已成为公司成功至关重要的目标。 2 客户为什么会流失

利用数据挖掘实现客户流失分析

利用数据挖掘实现电信行业客户流失分析 利用数据挖掘实现电信行业客户流失分析随着世界经济的全球化、市场的国际化和我国加入 WTO 步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识,已提出了严峻的挑战。企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。 在电信企业面向市场,面向国内外众多的竞争者,努力创造更高价值的同时,客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发展。那么,在激烈的市场竞争和不断变化的市场需求面前,如何最大程度的降低客户的流失率呢?常用的方法之一就是利用数据挖掘技术。 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它的分析方法是利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很多的行业已经具有成功的应用。在电信行业的应用领域主要有客户关系管理,客户欺诈分析,客户流失分析,客户消费模式分析,市场推广分析等。 那么,在客户流失分析系统中,如何应用数据挖掘技术呢?主要方式是根据以前拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数学模型,找出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并给出明确的数学公式。只要知道客户属性、服务属性和客户消费数据,我们就可以计算出客户流失的可能性。市场/销售部门可以根据得到的数学模型随时监控客户流失的可能性。如果客户流失的可能性过高,高于事先划定的一个限度,就可以通过多种促销手段提高客户的忠诚度,防止客户流失的发生,从而可以大大降低客户的流失率。基于严格数学计算的数据挖掘技术能够彻底 改变以往电信企业在成功获得客户以后无法监控客户的流失,无法实现客户关怀的状况,把基于科学决策的客户关系管理全面引入到电信企业的市场/销售工作中来。通常一个完整的数据挖掘过程由业务问题定义,数据选择,数据清洗和预处理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用等多个步骤组成。这里我们以个人客户流失为例说明各个步骤的功能。 1.业务问题的定义 业务问题的定义要求非常明确。任何不明确的定义都会严重影响模型的准确和应用时的效果。例如:在客户流失分析系统中,需要明确客户流失的定义。在客户流失分析中,主要有两个核心的变量: 1.财务原因/非财务原因; 2.主动流失/被动流失。客户的流失利用数据挖掘实现电信行业客户流失分析类别根据这两个核心变量可以分为四种。其中自愿的、非财务原因的流失客户往往是高价值的、稳定的客户。他们会正常的支付自己的服务费用,并对市场活动有所响应。所以这种客户才是我们真正想保持的客户。而真正在分析客户流失的状况时,我们还必须区分公司客户与个人客户,不同服务的贡献率,或者是不同客户消费水平流失标准的不同。举例来说,对于用一种新服务替代原有服务的客户,是否作为流失客户?又或者,平均月消费额为 2000

第四篇-电信客户流失影响因素与预测分析教学教材

第四篇-电信客户流失影响因素与预测分析

电信客户流失影响因素与预测分析 一、引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。 二、问题分析 根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。 对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。

三、算法简介 3.1分类分析 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。常见的分类方法有贝叶斯分类(Bayesian),神经网络(neural networks),遗传算法(genetic algorithms)和决策树分类器(decision trees)。在这些分类方法中,决策树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用。 3.2决策树演算法 决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。 一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。 3.3决策树演算法的比较 决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree 四种。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽

SPSS Modeler 预测电信客户流失案例

Modeler 帮助电信运营商预测客户流失案例 本文主要通过运用IBM SPSS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果 引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。 本文主要通过运用IBM SPS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。 数据准备 读入数据源 读入电信客户数据,数据有多达42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。将流失字段churn 角色设置为目标。将所有其他字段的角色设置为输入。 图 1.数据源

一种确定客户流失的方法和系统

一种确定广电客户流失的方法和系统 作者:胡玉婷袁昊程 版本:v1.0 文档创建日期:2013年9月11日 最后修改日期:2013年9月11日 1.本发明要解决的技术问题是什么? 进入21世纪以来,随着电信与信息技术的飞速发展,在“三网融合”的大趋势下,广电运营商面临着重大挑战,同时也是一次重大机遇。与其它运营商相比,有线运营商在视频传播领域具有资源、技术等全方位的优势,但随着时间的推移和科技的发展,这种优势将会不断弱化,全面的竞争将不可避免。而且对于广电运营商而言,注册客户数动态增长,在大量客户入网的同时,又有大批客户离网流失,业务与收入总量增长相对趋缓,导致出现“增量不增收”现象。从传统意义上讲,发展一个新客户所支出的费用是保留一个老客户的五倍。因此,分析客户流失原因,吸引潜在客户入网,增加现有客户满意度,减少客户流失概率,提高客户消费水平,充分占有市场,是广电运营商在激烈市场竞争中制胜的关键。那么如何保留当前客户资源,采取措施挽留将要流失的客户,降低客户流失率,并为之提供有差别的服务,已成为广电行业目前亟需解决的问题。 2.详细介绍技术背景,并描述已有的与本发明最相近似的技术方案 广电行业中,客户流失是指客户在连续一段时间内发生不同程度的停止贡献价值,甚至拖欠应收费用的行为。客户流失分析是指使用多角度的客户数据进行分析,提炼出已流失和预流失客户的行为特征,利用数据挖掘技术建立客户流失模型,并将流失模型应用在实际运营中,对客户在未来一段时期发生流失的概率进行预测,并输出流失可能性较大的客户清单,从而能提供给CRM 等相关系统做事前的维系挽留工作,降低客户的离网率,减少企业的损失。目前已经有诸多解决客户流失分析的数据挖掘技术方案,主要分为如下几类: 1.决策树算法,这样的系统架构相对简单,系统整体运行效率易于保障。 2.神经网络算法 3.逻辑回归算法

SaCa RealRec客户挖掘案例分析:中国银行客户流失预警总结

中国银行客户流失预警总结 技术战略发展部 孟令胜1 1.Email:menglsh@https://www.doczj.com/doc/634889085.html,

目录 背景介绍 (3) 问题阐述 (3) 解决思路 (4) 与客户流失相关的关键因素分析 (4) 建立模型 (5) 原始数据 (6) SPSS模型 (6) Mahout模型 (7) 两种模型的对比 (8) 进一步研究 (8)

背景介绍 高端个人客户数量少、价值高、利润丰厚,对商业银行发展个人金融业务及至公司金融业务都极为重要,一般来说,20%的优质个人客户贡献了80%以上的利润。在中国,更为明显的社会收入差距使得优质个人客户的作用更为重要。研究表明,在中国10%的优质个人客户贡献了至少90%的利润。由于各种因素的不确定性和市场的不断增长,以及一些竞争对手的存在,很多客户不断地从一个供应商转向另一个供应商,只是为了求得更低的费用以及得到更好的服务,这种客户流失在许多企业中是普遍存在的问题。因客户流失导致的损失是巨大的,因为获取一个新客户,要在销售、市场、广告和人员工资上花费很多,而且大多数新客户产生的利润不如那些流失的客户多。据统计,赢利一个新客户所花费的成本是保留住一个老客户的5到6倍。因此保住老客户,提前预测出潜在的流失客户,防止因客户流失而引发的经营危机,对于提高企业的竞争力具有战略意义。 问题阐述 对于中国银行上海分行现在中高端客户数大概在20万左右,去年是24万左右,相对于去年来说,中高端客户总量流失了16.7%(银行方面计算的是(24-20)/20=20%),在银行领域来说这个比例相对较高,因此分行现在急需一些有效措施对中高端客户流失进行预警。 客户主要想通过分析中高端客户资金流失去向,比较存量中高端客户与流失中高端客户在金融资产、产品持有、金融行为等特征上的差异,建立中高端客户流失预判模型,筛选潜在流失客户,其实也就是一个分类问题。后续根据模型的可解释性制定差异化的产品、服务、营销策略,预估营销活动对降低中高端客户流失率的效果。

基于商务智能的客户流失预测模型与算法研究

基于商务智能的客户流失预测模型与算法研究客户流失管理是许多行业关注的一个重要问题,近年来,以传统统计学方法和人工智能方法为基础,客户流失预测研究取得了丰富的研究成果,但尚存许多值得研究的问题。商务智能的崛起为客户流失预测的研究提供了新的思路。本文在商务智能理论和客户关系理论框架下,对现有客户流失预测模型结构进行修订,提出了新的预测模型结构。然后,以新的预测模型结构为基础建立了客户流失策略管理模型、客户流失特征提取与属性选择方法、客户流失预测模型,对电信业的客户流失预测问题进行了实证考察,从一个新的角度加深了对客户流失的规律理解。 最后,对控制客户流失的策略进行了研究。现总结如下一、提出一种新的客户流失预测模型结构,以一种崭新的思路研究客户流失问题。根据客户数据的特点和现用预测方式的不足,采用特征提取、属性选择、预测模型设计的预测新思路来研究客户流失问题。通过对新模型结构实现算法和实证的研究,证明了新模型结构比现用模型结构更加有效。 二、应用基于企业竞争的Delta策略模型,提出一种用于电信业的客户流失管理策略模型(CMSM)。通过使用某电信企业客户流失数据集,对CMSM进行了验证。其结果表明,该模型描述了客户流失的原因且包含了与企业竞争策略相关的主要预测因子,从而使其实际应用更易控制。三、利用特征提取和指标属性选择方法,对电信业客户流失预测进行实证分析。 主要结论是1、将核主成分分析(KPCA)引入到客户流失预测中,提出了相应的特征提取算法,将KPCA与Logistic回归结合,设计了预测模型。对某电信公司客户流失预测的实证结果表明,该方法获得的命中率、覆盖率、准确率、提升系数、命中率置信度区间、覆盖率置信度区间、整体准确率置信度区间和Kappa,高于原始属性集和主成分分析(PCA)特征提取法。这表明KPCA能提取客户数据的非线性特征,是研究客户流失预测问题的有效方法。2、将信息增益(IG)引入到客户流失预测中,提出了相应的属性选择算法,将IG与神经网络(NN)结合,设计信息增益神经网络(IGNN)预测模型。 对某电信公司客户流失预测的实证结果表明,该方法获得的命中率、覆盖率、准确率、提升系数、命中率置信度区间、覆盖率置信度区间、整体准确率置信度

电信企业客户流失及忠诚度分析

东华大学研究生课程论文封面 教师填写: 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的课程论文,是本人独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。 论文作者签名: 注:本表格作为课程论文的首页递交,请用水笔或钢笔填写。

目录 1 引言 (1) 2 数据理解 (1) 3 数据准备 (4) 4 预测模型的建立 (5) 5 模型评估及客户特征分析 (6) 6 客户忠诚度的分析 (8) 7 结论 (12)

电信企业客户流失及忠诚度分析 王丹丹 (东华大学,管理科学与工程,2150863) 摘要:近年来国内电信业的分割、电信体制的激烈变革,竞争的急速加剧使得各电信企业在开拓市场、发展客户的同时,同样注重对老客户的挽留,预测客户流失因素,如何保持现有的客户吸引更多的潜在客户,是电信企业面临的重要问题 本文主要在已知数据的基础上利用数据挖掘中的决策树、神经网络以及Logistic 回归算法具体在电信业客户流失分析中的应用。 关键词:客户流失、决策树、神经网络、客户忠诚度 1 引言 2001年开始,中国电信行业就开始规划和实现经营分析系统,初衷就是建立数据仓库及基于数据仓库之上的数据分析和应用,其中主要包含两个主题——流失分析和交叉销售,而之前的相关杂志也发表了很多技术文章,但当时整个电信行业主要以中国移动为主,竞争压力并不大,业务人员更关注的是开拓市场和发展客户,对客户流失问题的关注很少。但2011年之后,电信行业不断竞争,所以各大公司反过头来又做客户流失,意识到挽留一个老客户要比吸引一个新客户对公司的价值会更大。因此,现在移动、联通等电信行业都会付出很大努力来尽量防止客户流失增加客户忠诚度。本文的工作正是基于此为背景通过分析客户的基本数据、交易数据和行为模式,通过spss modeler14.0利用决策树、神经网络、等数据挖掘技术,建立客户流失预测模型,并在此基础进行初步的流失原因分析和客户流失特征,给企业以有效的建议,并利用因子分析对客户的忠诚度进行分析。本文主要以下几个方面来展开:数据理解和准备、建立流失预测模型和模型的验证评估,最后是客户忠诚度分析。 2 数据理解 由于数据信息量比较大,变读入电信客户数据telco.sav,数据有多达42 个字段,我们有必要对原始数据进行探索,找出影响客户流失的最重要的因素,数据探索不是一个一次性的工作,它是一个分布的,需要反复试探和观察的过程。可以通过观察每一个变量与目标变量之间的相互关系作为变量选择和变量衍生的依据之一,并同时评估数据的质量,如检查空值、异常值、缺失值、噪声数据等。随着下面数据准备过程的不断进行。在数据探索中使用SPSS Modeler中的数据

【参考1】用户流失模型

前面谈到了客户细分,这里说下流失分析吧 流失分析是客户细分大框架里面的一部分最重要的标签。切割用户有很多角度(例如性别、年龄等自然属性;成长状况等生命周期属性;贡献情况等价值属性;问题倾向等风险属性;消费特性等行为属性),我觉得最重要的特征是价值和风险,也就是说切割用户的头两刀应该是分开不同价值、风险倾向的用户 流失分析是获得用户风险倾向的分析,分析的结果是按照业务定义的风险类型,给用户打上不同的风险分值和风险分群 有了客户细分模型后,我们可以尝试在做更复杂模型是,进行模型的交叉,也就是说把细分等一些初等模型的结果成为重要模型的输入变量,这有利于提高精确度,最重要的是给模型的解释和实施代理很大的帮助(试想下,我们知道一个人有问题,但如果知道了这个人的细分标签,就意味着我们可以动手拯救他,而不是卧在桥头看水流) 说说流失分析的过程吧 step1-流失的界定:流失的界定是整个流失分析的重要环节,需要结合业务目的和数据状况界定流失(一般来说业务方界定的流失和技术上界定的流失不一致)。如何才算好的流失界定呢个 1、有业务含义,围绕着用户的业务目的来界定流失,例如:目的是促成用户消费,则xx天前有消费,当前没有消费的界定为流失;目的是促成用户提升价值,曾xx天前比当前消费降低50%以上的用户界定为流失 2、有稳定性:可以引入流动性分析,看用户在什么样的流失界定下,自然回复率低,也就是说如果我们不管他,他一般就挂了 3、操作性:回忆下人生(其实我也很年轻,那就回忆别人的吧,呵呵),最大的流失莫过于失去生命,如果到用户死了后再抢救有效果么??呵呵,所以我们界定的用户流失,一定是在发现流失后,有可以行动的方案 3、churn级别设定:详细分开,用户有几种阶段(好-有点问题-有问题-问题过大),我们需要在数据上给每个用户在churn中打一个级别,这对于模型学习有意义,最终使用好用户和有问题的用户对比建模,而不是用有点问题和问题过大的用户。这样有些复杂,但我对比尝试过,虽然对模型准确率没太大提升,但对模型的解释性有帮助,在稳定性上也会好一些吧 5、可以考虑定义多个流失,分别做模型:有多少种业务情况,就有多少种流失,最终可以考虑再做一个大模型,把所有的流失再封装一层 step2-变量列表:重复我个人的观点,变量列表的设计是以了解业务为基础的,每个变量都应该有业务猜测和原因。常把“变量是否有效要模型结果说了算”挂在嘴边的人,不知道技术如何,模型应用上肯定是傻子,尝试着说服他们更多的关注业务吧 1、尽量选择已有的变量,会使得变量准备的工作量小 2、按照业务内容把变量分类,综合考虑业务需要和计算量选择合适的变量;同时可以衍生一些从数据加工角度看冗余,但建模需要的变量(例如把入网时间->在网月份数) 3、确认变量获取的时间长度是否足够:对于消费总量的纯增量数据,只要系统最近没有大割接问题都不大;对于用户等级等快照变量,要想回溯快照可不是件容易的事情,要想好哦 4、已有的模型结果变量,可以作为准备变量交叉参与模型 step3-数据加工和检验:检验比加工更重要 1、数据加工不说了,有些用数据库,有人用c,有人用sas或climenting挖掘工具处理数据,都可以,没有哪个好,只有熟不熟 2、数据检验非常重要(会决定项目的成败),分成3类:单指标验证(每个指标的数据分布状况)、多指标交叉验证(指标间的大小、量级、加和等关系,需要穷举)、时间序列检验(在时间上的稳定性)--我曾经写了大约2000行代码的sas数据检验程序,可以配置的生成html 报告,感觉对效率提升很大

移动运营商的客户流失管理案例分析报告

移动运营商的客户流失管理案例分析 发布时间:20070427 作者:转载出处:C114 录入:雷 1. 问题的提出: 近十年来我国电信业以3倍于GDP的速度增长,成为国民经济支柱产业中增长速度最快的行业之一。电信业的急速增长在很大程度上是由电信服务业中移动通讯市场的急速发展所推动的。但是,随着市场的拓展和竞争,移动通讯业也遇到了一些问题,如代理费用的升高和宣传费用的升高,这使发展新客户的难度增加、收益率下降。 价值客户不仅是电信企业的宝贵资源,也是其竞争对手不断争取的对象。电信企业的客户流失非常严重。据某运营商的统计,该运营商的移动客户在2004年1-10月平均每月离网400万户,月平均流失率达4.7%。其他运营商的客户流失率也居高不下。 根据美国市场营销学会顾客满意手册的统计数据表明,吸引一个新顾客所耗费的成本大概相当于保持一个现有客户的5倍。 这使得移动运营商不得不关注客户流失管理,以采取有力措施防止客户流失。 2.中国移动-客户流失管理的支撑系统和策略 中国移动通信主要经营移动话音、数据、IP电话和多媒体业务,其网络规模和客户规模列全球第一。截止到2006年11月底,客户总数已达2.964亿户。 2.1.支撑系统 中国移动已经形成了完整的业务支撑体系,由BOSS系统、经营分析系统(数据仓库)和支撑网网管系统三部分组成。经营分析系统已经成为市场经营过程(包括客户流失管理)的重要支撑环节。

2.1.1.经营分析系统建设概述 从2001年开始规划,2005年底建成世界最大的数据仓库(超过842TB容量),2006年7月容量已达1614TB;应用了OLAP、数据挖掘技术;提高了企业内部数据的标准化程度,有统一的逻辑模型、统一的指标解释;方便指标、报表、即席查询;与BOSS系统进行了互动。 中国移动数据仓库系统的分级结构 2.1.2.经营分析系统的意义 分析内部数据资源,理顺企业管理流程,提升管理模式;提升中国移动的精细化营销能力,降低营销成本(客户营销/服务从地毯式轰炸转向精确式打击)。例如:某地区真实流失人数190人(总样本的6.13%),不用模型就要对1455人(6.13%)做市场活动;采用了流失模型后,仅需要对712人(3.00%)做市场活动。 2.1. 3.经营分析系统的经济效益 中国移动经营分析系统取得了较为显著的经济效果,某个单项的应用就可以带来显著的经济效益:

客户流失预测数据挖掘方法对比分析

客户流失预测数据挖掘方法对比分析 随着市场竞争的加剧,新技术的不断涌现,数据仓库、数据挖掘技术在客户关系管理的应用日益广泛和深入,其中客户行为分析、客户满意度评价、客户细分等是数据挖掘技术在客户关系管理的典型应用。近年来,客户挽留成为客户关系管理的重要内容,在诸多行业,保持高的客户挽留率对于公司利润的增长,超过公司规模、市场份额、单位成本等竞争因素的影响。学术界、企业界提出了以客户关系管理、关系营销为营销模式,以客户需求为核心价值,采用数据挖掘技术对客户流失行为进行分析建模,以期增强客户忠诚度、降低客户流失率。 1客户流失预测常用技术 客户流失分析与建模是应用数据挖掘技术新的应用。简言之,预测模型是从数据库中发现模式,用于对未来的预测。客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。 学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模,取得了不错的效果。 1.1回归分析 回归分析是一种广泛应用的预测技术,回归分析的目的是找出数值型变量间的依赖关系,并通过函数关系表现出来。回归分析的预测效果仅仅依赖于预测的变量与其他变量的关系,即模型的精确度取决于自变量和因变量的分布符合模型的程度,自变量与因变量的分布适合所选取的模型,则预测效果好,反之,预测效果差。根据自变量和因变量的函数关系,分为线性回归和非线性回归。客户关系研究中广泛应用的模型有Linear, Logistic等回归方程。 文献[1]应用Logistic回归对商业银行客户流失进行了分析预测,并以真实数据对模型进行了校验,结果表明模型具有良好的预测效果。文献[2]应用Logistic模型研究了客户生命周期价值及客户流失,研究发现,相比决策树和神经网络技术而言,Logistic模型更适合对客户流失的分析和预测,但同时作者也指出,预测性能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能表明他们的训练样本更适合Logistic来建模。文献[3]指出,回归分析在客户流失预测中的主要缺点是对训练样本的要求,并且不能以符号化或易于理解的形式直观地表现隐含的模式。 1.2决策树 决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一个节点,直至到达也节点,叶节点所属类别就是新节点的预测类别。决策树算法有ID3,4.5,C5.0,CART等。 由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类规则,文献[4]应用C4.5算法对保险客户基本信息进行了分类,分析出了客户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama通过基于决策树的方法对客户档案进行了分类,首先把客户群体划分为首选客户(Preferred customers)和一般客户,首选客户指那些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户,以达到挽留高价值客户的目的。为了克服决策树固有的缺点,提高客户流失预测模型的精确度和可解释性,文献[5]结合了AD Tree模型与Logistic回归方程的优点,提出了TreeLogit模型。 1.3神经网络 神经网络是一组连接的输入/输出单元,其中每个连接都有一个加权值。神经网络的分类知识体现在网络连 1

关于汉中通信企业防止客户流失策略研究报告

关于汉中通信企业防止客户流失的策略研究 姓名某某 <某某学校某某学院陕西汉中 723001) [摘要]本文在电信企业竞争日趋激烈的背景下,探讨了电信产业客户流失与其他行业客户流失的区别。以汉中地区通信企业为客体,对汉中电信产业客户流失现象、原因予以了分析,在介绍国外保持客户策略的基础上,提出对国内电信业运营的借鉴,指出国内电信业的欠缺之处,分析了汉中通信企业客户流失的原因、阐述了对电信客户流失管理的重要性,通信企业客户保持的必要性,客户关系管理的步骤,最终从宏观及微观角度提出了汉中通信企业防止客户流失的对策、策略及建议。 [关键词]汉中通信企业;客户流失;对策;建议 今天的电信行业在营销手段日益成熟,由于市场利益的驱动,电信行业的客户依然是很不稳定的群体。据国外电信行业的统计,欧洲电信行业的客户流失率为25%,美国为30%,客户流失给美国电信运营商每年造成的收入损失高达90亿美元,还有额外的75亿美元的获得客户的费用。据In-Stat/MDR 市场研究公司估计,不断推出的心业务将加速客户的流失,号码携带的实施,将使美国的客户流失率增至46%。 几十年的发展之后,国内电信行业亦面临着客户流失问题:电信客户数在大量增加的同时,又有大批客户离网流失;业务与收入总量增长相对趋缓,出现“增量不增收”。据Gartner公司的调查数据,开发一个新客户的费用是维持一个老客户成本的4-5倍。因此,国内各电信运营商已预见客户流失的严重性,并采取积极措施,如控制客户离网率。 运营商面对客户流失现象日益普遍的今天,分析客户流失的现象、原因,借鉴国外电信成功经验、及对国内电信工作的启示,加强客户管理实施措施,选择客户管理的最佳方案,成为当今电信工作的重中之重。 一、汉中电信客户流失现象的分析 电信业是技术的产物,到目前为止,电信业独一无二的关键特征之一在于,它是一个不仅由技术驱动,而且根本上由技术确定的行业。现在世界上没有一个行业不受技术影响、不被技术所驱使。零售业运用计算机系统管理库存、利用互联网技术开拓通向客户的新渠道,使自己的劳动生产率和工作效率有了很大的提高。制造业通过实施有效客户响应(ECR>系统以及企业对企业

游戏数据分析:用户流失模型的建立

用户流失模型的建立 流失预测模型在很多行业都有引用到切实的市场运营当中,而接下来就开门见山的说一下游戏行业有关用户流失模型的建立。 目标:关于游戏用户的流失,普片的衡量指标有周流失与月流失,接下来研究的问题有两个: ①有关付费用户的月登陆流失问题 ②有关付费用户的月付费流失(付费用户的月登陆流失定义:本月充值的用户在下个月不再有登陆行为。付费用户的月付费流失:本月充值的用户在下个月不在有付费行为。但有可能还有登陆行为,这部分用户被称为沉默付费用户。) 数据指标理解:影响流失的普片判断有:在线活跃、充值或消费活跃、还有玩家账号一些属性(如果细分还有副本的活跃度,某些活动的活跃度,或者社交的数据等)。 本文在做流失预测模型之前做以下数据准备: ?玩家ID ?玩家角色名 ?等级 ?注册时间 ?本月充值总额 ?本月铜币活跃(铜币的交易次数) ?本月绑定铜币活跃(绑定铜币交易次数) ?本月元宝活跃(元宝交易次数) ?本月活跃天数(登陆天数) ?本月登陆次数 ?本月登陆总时长 ?下月充值总额 ?下月登陆天数

以上是从数据库中取出来的基本指标,而进行分析的指标可以在这个基础指标的基础上再进行丰富,例如:每活跃天在线时长=登陆总时长/活跃天数;每活跃天登陆次数=登陆次数/活跃天数;活跃度=活跃天数/本月已注册时长(大家将发现这里衍生的“活跃度”指标在后面的分析会起到神奇的效果)。数据都准备好了之后,现在就开始建立模型,以下用到的是SPSS Modeler软件。 首先采用源节点来录入数据,数据分为两份,第一份为“11月预测12月”数据,第二份为“12月预测1月”的数据。

接着利用“导出”节点导出我们所需要的衍生字段。

电信客户流失分析(第九组)

电信业客户流失分析 电信市场竞争比较激烈,挽留一个老客户能够带来很大的收益,,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。因此分析流失客户的特征是很关键的,现要求对数据库中的数据进行分析,看看哪些客户可能会流失?这些客户都有哪些特征?根据流失客户的特征组织一个市场营销活动来遏制这种趋势。 数据表一: 客户基本信息表(custinfo.csv) customerID: 客户编号;gender:性别;age:年龄;L_O_S:在网时间;tariff:话费方案;Handset:手机品牌; 表二:客户通话情况表的结构 Peak_calls:高峰时期电话数;peak_mins:高峰时期电话时长;offpeak_calls:低谷时期电话数;offpeak_mins:低谷时期电话时长;weekend_calls:周末时期电话数:weekend_mins:周末时期电话时长:international_mins:国际电话时长;Net_call_cost:国内电话时长;Month:月份; 表三:话费方案表 Tariff:话费类型;fixed_cost:固定费用;free_mins:免费时长;peak_rate:高峰时期单价;pffpeak_rate:非高峰时期单价;weekend_rate:周末单价;international_rate:国际长途单价 二、问题分析 根据已有的结果—流失客户,寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,将用户通话总话费求出,代表一个特征来描述客户。在综合数据求出一些派生的特征指标,例如高峰比率、低峰比率等。综合这些特征的指标,我们通过用“特征选择模型”,选出对流失客户影响大的指标,再用决策树将选出的指标进行分析可以得到这些指标对流失客户的具体影响。 三、模型的建立和求解 3.1数据预处理 1、数据理解

基于客户信息的电信企业客户流失问题分析

基于客户信息的电信企业客户流失问题分析 周支立 刘 斌  (西安交通大学管理学院) (联通陕西分公司记费信息系统部) 摘 要 在数据挖掘的基础上,提出针对电信运营企业的客户流失问题的分析方法,通过某公司客户中已经流失客户的信息分析以寻找某些特征,从而为解决客户流失问题打下基础。 关键词 客户信息 客户流失 电信企业 近10年来,我国电子信息产品制造业以3倍于G DP增长的速度高速发展,为国民经济和社会发展做出了巨大贡献。2001年的信息产业已占G DP的4.2%,2002年我国电子信息产业突破1.6万亿元,继续保持国民经济第一支柱产业的地位。在整个信息产业,电信运营业起了龙头的作用,对国民经济发展具有显著的直接和间接效益。国际电信联盟的研究表明,电信业对发达国家G DP增长的直接贡献度仅为6%到9%,而间接贡献度却通常超过90%;电信运营业的发展,带动了通信设备制造业的发展。同时,作为重要的基础设施,通信条件的改善也是网络业高速增长的基础,网络的兴起又拉动了计算机产业。通信设备制造业、计算机业的发展又带动了电子元器件产业、软件业的发展。这些事实说明,电信运营业的发展在信息产业中的确具有举足轻重的作用。但是随着市场不断的扩展,电信业也遇到了一定的困难,如代理费用的升高和宣传费用的升高,使进一步发展新用户越来越难,并且发展新用户的平均成本和新用户带来的平均利润的比例在逐步升高,依靠扩大规模而实现利润增长的难度在迅速提高。在发展新用户的收益率逐步下降的同时,随着竞争的逐步激烈,老用户的流失问题也日益严重起来。因此,对于每个电信运营企业来说,客户已经不再仅仅是销售和服务的对象,而是在经营发展中拥有的一项重要战略资源,成为各个电信企业在竞争中取胜的关键因素之一。由于电信企业在技术上和产品上同质化程度非常高,为客户提供优质服务、保持良好的客户关系和顾客忠诚度已经成为电信企业之间竞争的焦点。安盛咨询公司统计表明,争取、吸引一个新客户的费用是保住现有客户费用的5~15倍。预计在近5年中,这种战略转移将成为潮流。因此,在开发新用户的同时,尽量减少老用户的流失(降低用户离网率)问题,就摆到了移动通信运营企业面前。 1 客户关系研究概述 为了解决上述问题,不少学者对客户关系进行了研究,提出了客户关系管理的方法。如:葛清俊对客户关系管理在国外金融业中的应用模型研究进行了综述;张晓航提出客户关系管理系统的框架;宋仁海分析了目前电信运营中大客户工作中存在的一些问题,在此基础上提出了应用客户关系管理来完善大客户工作的建议,并给出了具体的措施;周水银首先 对客户关系管理(CRM)的内容进行了研究,然后阐述了数据挖掘方法在CRM中的应用;王浩鸣提出Internet的呼叫中心与CRM的信息技术融合的概念;齐佳音在分析客户关系管理的内涵及其意义的基础上,探索了国内研究的具体方向;李宝东介绍了有关CRM和数据挖掘的一些基本概念,以及数据挖掘应用于CRM所带来的好处,指出了如何在CRM中实施数据挖掘应用;祁沁午分析了企业的客户关系管理实施过程;盛丽提出商业银行实行客户关系管理的必要性;中国人民大学统计学系数据挖掘中心则论述了在现代技术条件下,数据挖掘在企业客户关系管理中的重要性,并进一步阐述如何以数据挖掘技术为指导来建立客户关系管理系统;蔡淑琴分析了企业销售信息流,设计了面向客户关系管理的企业销售信息系统主要数据模型,给出了主要功能与结构,探讨了电子商务环境下企业在售前、售中和售后的服务过程中可以采取的客户关系管理策略;赵国庆分析了有关客户分类的指标,着重研究了有关其操作的重点内容———客户分类及其方法问题; 瞿邦清论述如何在电力企业营销工作中引入客户关系管理思想,建立客户关系管理体系,加强电力企业争取和保持电力客户的能力;赵宏波提出数据挖掘在电信客户关系管理中应用的思想;李国秋对证券业客户关系管理中的客户信息进行了分析;黄中实提出客户关系管理及其实施步骤;杨林探讨了面向客户关系管理(CRM)的综合决策支持系统框架;丁旭详细分析了电信大客户流失的原因,包括电信运营商自身、竞争对手、客户自身的原因以及市场监管和政策变化的原因,在此基础上对防范电信大客户流失提出了一些对策等。尽管他们做了一些研究,但是尚缺少对客户流失问题进行分析。基于此,本文提出客户流失分析方法,并给出西安某电讯公司的分析结果。 2 流失客户的分类 作为电信运营商,其盈利模式就是发展用户,并为他们提供电信服务,同时收取服务费。但是由于种种原因,现有的用户会减少使用本企业的服务,或停止使用本企业的服务,这就是客户流失。前者是隐性的(减少使用),后者是显性的。根据实际的经验,隐性的客户流失往往会发展成为显性的流失。 并且,一个离网用户往往是从对某电信企业提供的服务存在79 情报杂志2003年第12期 ?情报方法?

相关主题
文本预览
相关文档 最新文档