当前位置:文档之家› 顾客流失的预测分析

顾客流失的预测分析

顾客流失的预测分析
顾客流失的预测分析

5 您能预测哪些客户有可能流失吗?

本章中,我们将阐述可预测哪些客户在不久的将来可能会从您公司流失的数据挖掘方

法,电信业务常将这种方法称为客户流失预测。

如今,电信业务市场日渐成熟,电信公司也意识到主动性客户关系管理的重要性,从而

非常关注对现有客户服务,即如何维系重要客户,以及怎样使之为公司带来更丰厚的利

润?

通过数据挖掘,您可以根据客户历史数据获得数据挖掘模型,从而生成公司很可能流失

的客户列表。最终,这将为您制订有效的市场营销战略提供有价值的业务洞察力,以防

止公司客户的流失。

本章所阐述的客户流失预测过程是以采用数据挖掘方法的预测建模为基础的,包括对每

个客户的流失可能性的预测,以及对可能流失客户及不会流失客户的分类。

73

5.1 业务需求

客户流失预测通常因其市场饱和度和动态市场变化等典型市场特征而成为电信公司首

要考虑的问题。由于电信市场日趋饱和,所以获取新客户的成本比留住现有客户群要昂

贵得多,并且竞争对手、技术,以及法律法规等动态市场变化更容易使客户流失到其他

公司。

5.1.1 数据挖掘的作用何在?

客户流失管理要求对客户行为具有良好的了解。首要问题是要弄清楚哪些客户将会从公

司流失,以及哪些客户会给公司带来利润。为防止客户流失,公司需要采取的首要措施

是在客户流失到其他公司前掌握客户行为,并努力找到客户流失的行为模式,这样公司

就可以提前采取一些规避措施。您可以通过简单的查询方式、OLAP 分析,或仅根据经

验来了解客户行为。但是,在把握与客户流失相关的客户行为的过程中,数据挖掘起着

极其重要的作用,而这些客户行为隐藏在诸如呼叫事务等庞大的数据集中。应当建立合

适的数据挖掘模型来识别客户流失行为模式,并为客户提供适当的产品和服务以防止流

失。在以下章节中,我们将阐述如何应用数据挖掘方法来防止电信企业的客户流失现象,

以及如何将其应用到您的 CRM 系统中。

5.1.2 起点?

该通用方法的第一步是把您要提出的业务需求转换成一个或多个可通过数据挖掘解答

的问题。

客户流失预测是一种不断变化的过程,而非单一事件。客户流失预测与公司的客户保持

过程密切相关。客户保持过程涉及三个方面:

明确哪些客户可能会流失。

确定可能流失的客户中您需要保留哪些客户。

开发客户保持策略(开展客户保持活动)以防止好这些客户流失。

作为客户保持过程的基础,客户流失预测对公司而言是一件非常有意义的工作。然而,

客户流失预测所面临的挑战在于,如何预测未来的客户行为,以及如何根据这一预测针

对客户采取相应的措施。

74

重要的一点是,必须牢记:成功的客户流失预测模型需完全适合公司客户保留程序。客

户流失预测建模不仅包括对客户流失情况进行评分,还包括业务战略开发中会用到的客

户流失描述。

我们将详细讨论数据挖掘是如何利用您公司可用的变量来让您预测哪些客户很可能会

流失。其中的基本假设是,从公司流失的客户在流失之前都会出现一些显而易见的行为

或特征。因此,您可以在其从公司流失之前尽早发现这些行为。

在构建客户流失预测模型时,我们并不建议您对各种各样的客户流失情况进行整体预

测。对客户流失进行明确的定义,并对流失类型加以过滤,将会使预测能力最大化,从

而使其对业务用户更具意义。

以下章节阐述的客户流失定义和流失过滤是流失预测过程中最为重要的步骤之一。

5.1.3 客户流失的定义

客户流失是客户因某种原因而离开为其服务公司的一种常见行为。客户离开某公司的原

因多种多样。根据客户流失原因,我们可识别不同种类的客户流失。可根据促成客户流

失的责任方(公司或客户)来对客户流失进行分类。

自愿流失

如果导致客户流失的首要责任在于客户本身,我们称之为自愿流失。在这种情况下,可

根据各种流失原因对自愿流失进行进一步细分,如:合同到期、手机变更、服务质量、

业务竞争、专业流失、技术更改、法律法规变更等等。总之,一切不属于非自愿流失的

客户流失都被认为是自愿流失。

75

提示:自愿流失的原因多种多样,但主要取决于各个国家的电信政策。例如,如果客户

对公司应尽的义务有一定时间期限,那么客户流失的主要原因就可能是合同到期。但是,

如果客户对公司没有义务,那么更常见的客户流失原因可能是客户的专业发生变化。专

业流失客户总是希望从其他服务提供商处获得更好的服务,因此会频繁地改变向其提供

服务的公司。

非自愿流失

非自愿流失是指客户流失责任在于公司的一种客户流失。造成这种情况下,可能是因为

公司因为某种原因(如:资信问题)而决定终止向客户提供服务。

5.1.4 客户流失过滤

根据公司的客户流失原因定义不同的客户流失类型是非常重要的,因为如果我们能针对

每一种模型来预测特定类型的客户流失,那么在建立和实用预测模型时,流失预测的效

果就会更好。

提示:区分客户流失类型的另一种方法是:首先,根据将从公司流失的客户情况建立模

型,然后再利用其它模型确定流失原因(客户流失类型)。

用于区分不同客户流失类型的过滤程序包括以下步骤:

弄清楚客户流失类型(从某个公司(国家)流失到另一公司(国家))。

确定需要预测的客户流失类型。

定义把该类客户流失同其他客户流失类型区别开来所需的过滤过程。

本章中,将以无线公司的私人用户为例来进行自愿客户流失预测,其中不涉及哪些为获

得更好服务而从公司流失的客户。有关因资信问题而导致的非自愿客户流失,请参阅第

6 章“如何发现客户的真正价值”。

76

5.2 备用数据

很显然,如果没有关于您客户的数据,您就无法进行数据挖掘。但是,哪些数据才是您

需要的呢?数据挖掘方法的第二阶段将识别哪些数据是解决业务需求所需的数据,以及

从何处获取这些数据。

以下是电信公司客户流失预测建模一般所需的数据类型:

客户流失指标

客户信息数据

- 人口统计数据

- 合同数据

呼叫数据

计费和支持数据

根据事务数据推导出的客户指标

其它数据

5.2.1 客户流失指标

在预测建模过程中,我们需要用于建立预测模型的目标变量。即需要预测的变量;本案

例中为客户流失变量。

5.2.2 客户信息数据

客户信息数据可分为两组。一组是客户人口统计学数据,另一组是与客户合同相关的数

据。

人口统计学数据

诸如年龄、性别、职业等客户统计数据可在首次向其提供电话服务时由客户提供,这些

数据对于识别或阐述客户群的特征非常有用。但是,某个客户的私人信息可能会随时发

生变化,并且,如果公司不经常收集可靠数据的话,这些就容易变得过时或不准确。

77

合同数据

合同数据是一些与客户合同相关的数据,如合同开始时间、价格方案、支付方式、服务

描述、客户所选手机类型等。这些信息可通过最初的合同收集,但它们可能会因之后的

公司策略或客户计划的变更而改变。有时,合同变更信息对客户流失预测而言是最有用

的信息。因为电信行业的市场情况和政策因公司(或所在国)的不同而不同,因而我们不

能对客户流失预测最有用的因素一概而论。

5.2.3 呼叫数据

呼叫数据可以各种方式对客户呼叫行为进行描述。通常,呼叫数据应可在一定时间范围

内进一步汇总,以供客户流失预测建模时使用。在该案例中,我们使用了过去 6 个月

的呼叫数据。呼叫数据可用呼叫次数、呼叫记录,或呼叫额表示。与呼叫相关的信息可

成为决定客户流失的重要因素之一,通常表示为推导数据的基础。

呼叫数据可分为三组。一组为呼叫频率,一组为呼叫质量,第三组为呼叫模式。

呼叫频率

呼叫频率数据可用客户呼叫行为表示,如:对最常用电话号码的呼叫次数、对不同电话

号码的呼叫次数等等。

呼叫质量

呼叫质量数据包含有关客户在呼叫期间是否遇到问题的信息。成功呼叫次数、中断呼叫

次数和失败呼叫次数均是表示呼叫数据质量的参数。呼叫数据质量常常是预测客户流失

行为的有用数据。

呼叫模式

呼叫模式数据用于描述与特定时间范围或某种呼叫类型相关的客户行为。呼叫模式数据

可以折扣时间范围内的呼叫次数、夜间呼叫次数和来电次数为例。

78

5.2.4 计费和支付数据

计费和支付数据可包含计费数额、客户给公司带来的收入和欠款数额等信息。对因资信

问题引起的非自愿客户流失问题与自愿客户流失问题而言,此类信息具有重要作用。

5.2.5 根据呼叫事务数据推导的主要指标

正确推导产生的主要指标(亦称主要指标或主要性能指标)可将实际业务经验转化成数

据,而客户行为则可利用从详细呼叫数据推导而来的数据得到充实。

推导指标的示例对客户流失预测建模有着重要作用。在第81页的 5.3 节“初始化及及

预处理数据”中,您可找到对部分此类指标的详尽阐述。

呼叫质量指标

呼叫行为趋势指标

客户影响范围指标

灵活性指标

5.2.6 其它数据

可能有些特定因素会被公司内客户流失管理部门根据经验认为是很重要的因素,如:客

户索赔数据和竞争对手的信息数据。客户索赔数据可用于描述客户对您服务的满意度。

竞争对手信息可帮助公司识别其他公司可能导致您客户大量流失的行为。

5.2.7 用于客户流失预测的数据模型

表 5-1 是本章用于客户预测建模的变量样表——资料来源于一家无线电信公司。

表 5-1 数据模型样表

变量名说明

CHURN_INDICATOR

1 Churn 时间延迟后客户是否从公司流失。

CUSTOMER

INFO

79

2 Age 年龄

3 Gender 性别

4 Job 职业

5 Agent 首次使用电话的地方

6 Handset_type 手机型号

7 New_handset 现在使用的手机是或不是新手机。

8 Priceplan 价格计划

9 Pay_method 支付方式

10 Status 客户当前联系状态(可联系、暂时不可联系等)

11 Grade 客户等级(金、银、铜牌客户等)

12 Contract_exp 合同到期日。

13 Tenure 自开始业务关系以来已持续了多少个月。

14 Suspen_before 在最近6个月内电话被中止的次数。

15 Discon_before 最近6个月内电话打不通的次数。

16 Handset_ch 手机型号变更次数。

17 Pay_method_ch 支付方式变更次数。

18 Priceplan_ch 价格计划变更次数。

19 Svc_call 呼叫相关服务(呼叫转发、呼叫等待)的次数。

20 Svc_info 信息相关服务(如SMS)的次数。

21 Svc_data 数据相关服务的次数。

22 Svc_discount 与折扣优惠计划相关服务的次数

23 Svc_free 免费服务的次数

24 Svc_nonfree 有偿服务的次数

呼叫

80

25 Total_dur 总通话时长分钟数。

26 Inbound_dur 拨出呼叫的时长。

27 Discount_share 折扣优惠呼叫(常规呼叫方面)。

28 Complet_call 3个月内完成呼叫的次数。

计费/支付

29 Revenue 收入

30 Bill_amt 话费额

31 Pay_delayed_before 费用支付延迟发生过多少次?

推导指标

32 Outsphere 拨打不同电话号码的次数。

33 Mobility 呼叫期间所访问的网元的数量。

34 Concentration 就总呼叫次数而言,对最常用两个电话的呼叫。

35 Quality 与失败呼叫相关的成功呼叫。

36 Call_trend N 个月内的呼叫记录(分钟)趋向。

5.3 初始化及预处理数据

为了创建我们的数据模型,我们必须收集所有的原始数据,并将其转换成数据模型所需

的格式。我们称此阶段为过程初始化及预处理阶段,即数据挖掘方法的第三阶段。

但是,在把数据初始化成进行数据挖掘所需格式的综合表格、视图或平面文件之前,客

户流失预测需要考虑预测特征所需要的其它因素——以历史数据为基础预测未来。

确定时间窗口

在初始化所有已定义数据时,有必要指明建议采用的数据采集时间范围。

81

为了确定在模型中将要使用哪些客户流失信息及客户数据时间范围,您应定义以下三个

项目:

数据窗口:用于构建模型的输入变量时间范围。

预报窗口:用于预测和在初始化目标预测变量(客户流失指标)时采用的时间范围。

客户流失预测模型常指“WHO以及WHEN”模型,这种模型试图解决“哪些客户

会从公司流失”和“这些客户将在什么时候离开公司”的问题。预报窗口是客户

流失建模的“WHO”部分。在建模阶段,预报窗口是确定客户是否会离开为其提

供服务公司的时间框架。

时间间隔:数据窗口和预报窗口之间的时间间隔。

在此,我们取数据窗口为六个月、时间间隔为两个月、预报窗口为一个月,如图 5-1 所

示。

在建模阶段,客户流失信息将和从二月到七月这六个月时间内的、在七月底以前现有客

户的历史数据一起使用,无论这些客户是否会在十月离开公司都是如此。在预测十一月

可能流失的客户时,可对八月底以前的现有客户采用这种模型。

因此,在九月初,市场营销人员可得到十一月份公司可能流失的客户列表,这样公司就

有两个月的时间来制定并实施适当的市场营销措施。

在研究客户流失模式的历史数据后,您就可以针对数据窗口做出决定。如果因为外部影

响而存在一些异常的客户流失情况,您就最好避开某些时间范围。用最新的可用数据时

间范围来构建预测模型是非常好的数据窗口示例。

82

83

图 5-1

预测建模时用到的时间范围示例

时间间隔越小,模型的性能就越佳。然而,时间间隔还表示活动规划和执行持续时间。时间间隔越长,意味着市场营销人员就有更多的时间设计有效的客户保持活动;而采用更长的时间间隔,预测模型就可预测更远时间的情况。预测客户流失情况时,至少需要一个月的时间间隔。换句话说,市场营销人员至少需要一个月的时间来根据客户流失预测建模结果来准备客户保持活动。

可在对时间间隔为一个月、两个月和N 个月模型性能进行比较后对时间间隔进行定义。例如,如果时间间隔为两个月的模型在性能上类似于时间间隔为一个月的模型,那么选用时间间隔为两个月的模型对于市场营销人员来说就是有利的。但是,您公司的市场营销过程应在确定时间间隔之前考虑。

提示:自愿客户流失预测中常犯的错误是构建了没有任何时间间隔的预测模型。例如,模型可以利用十一月以前(包括十一月份)的所有可用数据预测十二月份的自愿客户流失情况。无时间间隔的模型只是纯粹的理论模型,因为在现实中,十一月份的数据只能到十二月初才可以获得。从业务角度看,这种模型是无用模型,因为市场营销人员制定有效客户保持计划通常需要至少数星期的时间。

预报窗口的时间间隔可为数个月,而决策是根据市场营销要求和模型性能为基础的。

创建训练及测试数据集

预测建模需要创建训练及测试数据集。

训练数据集用于创建初始模型。初始模型构建完毕后,需利用测试数据集对所建模型加

以改进。测试数据集具有与训练数据集相同的变量,但二者的客户记录则不尽相同。其

用于检查为拟合训练数据集而创建模型时出现的过适应问题。通过随机拆分数据集可将

数据拆分成训练数据及测试数据。使各数据集中的客户流失比例大致相同这一点非常重

要。

有时,在您所提供的数据中,客户流失比例非常低。通常将这种情况称为“薄靶”。当

开发模型时,若不考虑到这一点,就可能得到不符合要求的结果。

例如,如果公司的客户流失率为1%,就建议您采用具有诸如1%之类的较低客户流失频

率的数据集来创建预测模型。之后,就可以非常迅速地利用数据挖掘方法来创建将各种

情况均标识为负值(非流失客户)的优质模型(精确度达到99%)。不过,这不能提供任何

新信息。

一个原则是,如果您要预测的结果占整个数据集不到10%,通常应作适当调整。

这一问题的解决办法是采用一种称为错误加权的方法或采用过采样法。

过采样包括创建相对事件发生率高于原始数据集的数据集。典型而最佳的方法是采用随

机抽样法。所得到的数据集是原始数据集的随机分层样本。

由于受您数据中事件发生率的限制,过采样的应用是受限制的。解决这一问题的办法是

通过复制现有事件发生来增加更高的事件发生或从其它时间窗口添加事件发生情况。不

过,这样做时必须小心谨慎,而且只能在其它方法不适用时采用。

错误加权使能够为分类正确和不正确的情况设定不同的权值。这样,错误加权就可用于

实施过采样而无需修改原有数据集。

84

提示:如果在生成代表原始数据集的样品时遇到困难,您可以利用群组数为5、类似性

限值高的人口统计学分群挖掘对全部变量进行分群分组,并从每个结果群组中采样。

所有变量的定义见第5.2节“备用数据”,建议把它们合并在一张表或视图中,以用于

作为客户流失预测建模的输入数据。以下章节将阐述从何处可获取正确数据集,以及如

何获取。

5.3.1 客户流失指标

客户流失指标变量的值根据客户流失定义而确定,而该变量则根据所定义的数据窗口、

预报窗口和时间间隔生成。客户流失指标只有当数据窗口中现有客户离开预报窗口中的

公司时才有效,反之则无效。

5.3.2 客户信息数据

客户人口统计数据和合同相关数据可通过数据仓库,或包含各个客户合同信息的系统进

行收集。有些变量是按业务知识分类的。例如,HANDSET(手机)是一个栏,说明客户

建模涉及的手机是否是最新产品。该信息来自决定哪个型号是新型号的市场销售人员。

诸如支付方式变更次数的合同变更信息可根据历史数据计算。

5.3.3 呼叫数据

您可以通过数据窗口获取呼叫数据或直接从CDR(呼叫详细记录)中获取呼叫数据。

5.3.4 计费及支付数据

您可以通过数据仓库或直接从BDR(计费详细记录)获取计费数据。

5.3.5 从事务数据推导的主要指标

利用事务数据可推导出不同的主要指标:

85

呼叫质量指标

客户影响范围

灵活性指标

呼叫行为

呼叫质量指标

这是衡量以各种方式定义的呼叫质量指标。定义这一指标的方法之一可以是通过多变量

因子分析表示失败或丢失拨入/拨出电话数量的线性变量组合。另一种定义方法是采用从

失败率(所有中断或失败的呼叫除以包括成功、中断或失败呼叫在内的所有已尝试呼叫)

推导出来的测量。

客户影响范围

可将此定义为不同拨出和拨入电话号码的和。在此我们将不同被叫电话号码的和称作出

局影响范围。

灵活性指标

此参数是特定时间范围内所访问的不同网元的和。

呼叫行为

呼叫行为趋势可从过去N个月中的呼叫分钟数推算出来。在此,呼叫行为趋势选用的时

间范围为六个月。要定义呼叫行为趋势的方法之一是计算呼叫分钟数的增长率。

5.4 评估数据

用于客户流失预测的数据模型已创建并迁移后,数据挖掘方法的第四阶段就是对数据本

身进行初步评估。

在这个步骤中,您应根据数据的分布情况初步了解您的数据,并解决丢失值、无效值、

溢出值及相关性问题。这一点在第4.4节“评估数据”中已有详细讨论。图5-2表示的

是由Intelligent Miner for Data生成的一元统计的输出结果。

86

图5-2一元统计

丢失值或无效值示例可见图5-2,其中GENDER(性别)是无效值,N和PAY_METHOD

也是无效值。您可以用Intelligent Miner for Data中的数据处理功能来正确处理这些无效

值。

用于客户流失预测建模的数据评估

在客户流失预测建模过程中,您需要再次执行数据评估步骤,以根据客户流失指标弄清

楚变量分布的差别。利用二元统计数据,您就可以掌握如何为预测模型创建选择变量。

如图5-3所示,每行中的变量顺序向用户表明:哪个变量可能会对客户流失情况的预测

影响更大。二元统计数据在Intelligent Miner for Data中的可视化非常有利于用户直观而

快捷地选择数据挖掘模型中所需的变量。第61页上第4.6.1节“如何读取并评估结果”

中讨论了如何读取这些柱状图和饼图的结果。

87

图5-3二元统计

在图5-3中,变量在图中出现的顺序可表明每个变量与 CHURN 变量明显不同的程度。

如图所示,最明显不同的变量是用于两种情况的 NEW_HANDSET。

图5-3第一行有80%的当前客户群数据集,其表示变量对比于总量的分布情况。客户拥

有新的手机类型(NEW_HANDSET),数量超过平均值,其当前状态(STATUS)更可能处

于激活状态;他们拨打了许多不同的电话号码(OUTSPHERE_RANGE)。

88

图5-3第二行有20%的数据集,表示公司已流失客户的变量分布情况,换言之,表示的

是已流失客户与总量的对比情况。如图中所示,各个变量的分布情况与第一行有很大差

别。这些客户的手机型号较旧,呼叫时所拨打的电话号码也较少。其呼叫质量也低于平

均水平。

根据二元统计,您可知道NEW_HANDSET、STATUS、OUTSPHERE_RANGE、QUALITY

和 CONTRACT EX是最重要的五个变量,用以从整个用户集中识别流失客户。在任一

行上双击鼠标进行展开,便可看到更多变量。

提示:我们在此列出了五个重要变量。但是,还有各种一元度量,它们中若有任何变量

相互关联,其它变量可能会提供差别更大的信息。

但是,二元统计主要表示基于数据分布的统计测量,并不涉及预测概念。

5.5 数据挖掘技术

选择要采用的数据挖掘技术是我们通用数据挖掘方法的第五步的内容。

本节中,我们将讨论适合于客户流失预测的数据挖掘技术以及应用数据挖掘技术时需要

注意的事项。

5.5.1 选择数据挖掘技术

有各种数据挖掘技术可用于客户流失预测,其中有些技术适合于预测建模。通常情况下,

我们采用采用分类和值预测算法:

决策树

径向基函数(RBF)

神经网络——预测和分类

回归法——逻辑回归和多项式回归

89

决策树

决策树生成的输出结果呈树形结构,使市场营销人员可轻松明白其含意,以及可轻松识

别用于流失管理的重要变量。在构建树型模型时,可使用未经转化或规范化处理的原始

变量。决策树模型将为用于预测目标变量的数据创建规则。

径向基函数(RBF)

径向基函数(RBF)网络属于采用监督训练算法(supervised training algorithm)的前向回馈

式网络。径向基函数(RBF)的工作原理是把大量简单函数添加在一起。模型开发期间,

不同的函数以及其相加方式都要经过调整,以符合要预测的值。

神经网络

神经网络的工作原理是获取输入值并在网络中传递这些输入值,而使之从初始值转换成

一个或多个结果值。训练期间,在构建网络的地方,将随着错误的不断发现与解决而不

断调整并改进网络。但是,神经网络不生成可简化解释的规则,并有必要对输入数据提

出特殊要求。

回归法

回归分析是一种传统的统计方法,用于推导表达变量数量和需预测值之间关系的函数。

这些方法常使用数字输入。与神经网络和径向基函数模式一样,这种方法也必须进行预

处理。

实际应用中有大量各不相同的回归法。这些方法与拟适用数据在函数类型上有所差别。

其中最常用的是:

多项式回归是线性回归的延伸,线性回归使用更为详细的函数以适合这些数据。

逻辑回归明显不同于其它回归方法,因为逻辑回归的输出值为1或0(二进制数)。

要获得逻辑回归,可采用不带隐藏层的神经网络。去除神经网络中的隐藏层后,

神经网络的组成就只有输入和输出节点间可调节权值(adjustable weight)。

模型的组合

在创建客户流失预测模型时,可在总体客户群上或专门针对几个细分开发这些模型。90

不同模型可按序列或平行进行组合,以获得更佳结果。模型组合示例如下:

创建上层细分(top segmentations)预测模型。首先细分您的移植,然后把细分编号作为输入变量,或仅针对特定细分的客户构建模型。

运行多个预测模型并以结果为表决数据库。确认某产品购买预测情况的不同模型可使结果具有更高的置信度。

在您数据集的不同部分构建不同的模型。

5.5.2 应用数据挖掘技术

预测模型的性能好坏取决于所采用的方法和变量。因此,需要尝试多种数据挖掘技术并

比较各个模型的性能,然后再选择最佳模型。该建模过程如图 5-4 所示。

图 5-4 建模过程 – 应用数据挖掘技术并选择最佳模型

选择适当变量

通常存在大量用于建模的变量。为了识别最相关的变量,可采用二元统计方法。基本上,

这将会为您提供一个变量列表,该变量是通过统计测度每个变量分布相比于整个移入的

差异程度来进行排序的——这种统计方法被称作X平方测试统计。详细见第86页5.4

节“评估数据”。

91

决策树

如第81页5.3节“数据来源分析及预处理”所述,如果数据集中的流失客户不多,就应

使用错误加权函数或过度抽样。在此,我们采用了客户流失率为2%的客户数据集。当

树算法尝试对流失客户进行分类时,其可能将全部流失客户归类为稳定客户,这样整个

决策树的出错率仅为2%,这个值对该算法并无大碍。

提示:Intelligent Miner for Data具有错误加权函数,该函数可防止算法把全部流失客户

归类稳定客户。在该案例中,我们假设错误加权值为10,意思是,如果某个算法把全部

流失客户归类为稳定客户,则决策树的出错率将为20%,而不是2%。您可以根据所得

到的决策树结果来调整错误加权值。

也可以设置决策树的最大深度。在该案例中,决策树最大深度限定为 10。如果决策树

有多个叶节点,就可能出现过适应问题。换句话说,尽管决策树的出错率低,但是如果

其深度更深,该决策树将不适用于其它数据集,而且更难于解释。

修剪是把某些节点和分支合并在一起,以改进有关性能和解释等的决策树能力的过程。

提示:Intelligent Miner for Data内含一个自动修剪算法和停止标准,诸如节点大小、树

深度和精确度等,而且还允许用户进行手工修剪。在此,决策树采用Intelligent Miner for

Data自动修剪,若分枝对市场营销前景毫无意义,则可以进行手工修剪。

RBF(径向基函数)

在该案例中,我们采用决策树中主要考虑的变量。但由于神经网络的特点,您可以采用

初始运行时所使用的全部变量。此后,可以找到最合适的变量。如果客户流失率低于5%,

而且没有像径向基函数(RBF)中的错误加权这样的功能,我们可以采用分层样本(客户流

失率达到20%)。如果采用平衡样本(训练数据集中客户流失率为50%),模型的性能将会

比其自身性能更高。

92

相关主题
文本预览
相关文档 最新文档