当前位置：文档之家› 利用K-Means聚类进行航空公司客户价值分析.doc

利用K-Means聚类进行航空公司客户价值分析.doc

利用 K-Means 聚类进行航空公司客户价值分析

1.背景与挖掘目标 1.1 背景航空公司业务竞争激烈，从

产品中心转化为客户中心。针对不同类型客户，进行精准营

销，实现利润最大化。建立客户价值评估模型，进行客户分

类，是解决问题的办法 1.2 挖掘目标借助航空公司客户数据，对客户进行分类。对不同的客户类别进行特征分析，比较不

同类客户的客户价值对不同价值的客户类别提供个性化服

务，制定相应的营销策略。详情数据见数据集内容中的

air_data.csv 和客户信息属性说明 2.分析方法与过程 2.1 分析方法首先，明确目标是客户价值识别。识别客户价值，应用

最广泛的模型是三个指标（消费时间间隔（Recency） ,消费

频率（ Frequency）,消费金额（ Monetary ））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时

间内，消费的总额。但是，因为航空票价收到距离和舱位等

级的影响，同样金额对航空公司价值不同。因此，需要修改

指标。选定变量，舱位因素=舱位所对应的折扣系数的平均

值=C，距离因素 =一定时间内积累的飞行里程 =M 。再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上

影响客户价值，所以增加指标 L= 入会时间长度 =客户关系长度总共确定了五个指标，消费时间间隔 R，客户关系长度 L ，消费频率 F，飞行里程 M 和折扣系数的平均值 C 以上指标，

作为航空公司识别客户价值指标，记为LRFMC 模型如果采用传统的 RFM 模型，如下图。它是依据，各个属性的平均

值进行划分，但是，细分的客户群太多，精准营销的成本太

高。

综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC 模型为基础本案例，总体流程如下图

2.2 挖掘步骤从航空公司，选择性抽取与新增数据抽取，形

成历史数据和增量数据对步骤一的两个数据，进行数据探索

性分析和预处理，主要有缺失值与异常值的分析处理，属性

规约、清洗和变换利用步骤 2 中的已处理数据作为建模数据，

基于旅客价值的 LRFMC 模型进行客户分群，对各个客户群再

进行特征分析，识别有价值客户。针对模型结果得到不同

价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户） 2.3 数据抽取选取， 2014-03-31 为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成

历史数据对于后续新增的客户信息，采用目前的时间作为重

点，形成新增数据 2.4 探索性分析本案例的探索分析，主要对

数据进行缺失值和异常值分析。发现，存在票价为控制，折扣

率为 0，飞行公里数为 0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找

每列属性观测值中空值的个数、最大值、最小值的代码

如下。 import pandas as pd

datafile= r'/home/kesci/input/date27730/air_data.csv' # 航空原始数据 ,第一行为属性标签

resultfile = r'/home/kesci/work/test.xls' # 数据探索结果表

data = pd.read_csv(datafile, encoding = 'utf-8') # 读取原始数

据，指定 UTF-8 编码（需要用文本编辑器将数据装换为UTF-8 编码）

explore = data.describe(percentiles = [], include = 'all').T # 包括对数据的基本描述，percentiles 参数是指定计算多少的分位

数表（如 1/4 分位数、中位数等）；T 是转置，转置后更方便

查阅

print(explore)

explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数，需要手动计算空值数

explore = explore[['null', 'max', 'min']]

explore.columns = [u' 空值数 ', u'最大值 ', u'最小值 '] # 表头重命名

print('-----------------------------------------------------------------以

下是处理后数据')

print(explore)

'''这里只选取部分探索结果。

describe()函数自动计算的字段有count（非空值数）、unique

（唯一值数）、 top（频数最高者）、 freq （最高频数）、 mean （平均值）、 std（方差）、 min （最小值）、 50%（中位数）、max（最大值） '''

以下是处-----------------------------------------------------------------

理前数据

count unique top

freq mean std

MEMBER_NO 62988 NaN

NaN NaN 31494.5 18183.2

FFP_DATE 62988 3068 2011/01/13

184 NaN NaN

FIRST_FLIGHT_DATE 62988 3406 2013/02/16

96 NaN NaN

GENDER 62985 2

男48134 NaN NaN

FFP_TIER 62988 NaN NaN

NaN 4.10216 0.373856

WORK_CITY 60719 3310 广州9385 NaN NaN

WORK_PROVINCE 59740 1185

广东17507 NaN NaN

WORK_COUNTRY 62962 118

CN 57748 NaN NaN

...

----------------------------------------------------------------- 以下是处理后数据

空值数最大值最

小值

MEMBER_NO 0 62988 1 FFP_DATE 0 NaNNaN

FIRST_FLIGHT_DATE 0 NaN NaN GENDER 3 NaN NaN FFP_TIER 0 6 4 WORK_CITY 2269 NaN NaN WORK_PROVINCE 3248 NaN NaN WORK_COUNTRY 26 NaN NaN AGE 420 110 6 LOAD_TIME 0 NaN NaN FLIGHT_COUNT 0 213 2

BP_SUM 0 505308 0 ...

2.3 数据预处理数据清洗丢弃票价为空记录丢弃票价为0、平均折扣率不为0、总飞行公里数大于 0 的记录 import pandas as pd

datafile= '/home/kesci/input/date27730/air_data.csv' # 航空原始数据 ,第一行为属性标签

cleanedfile = '' # 数据清洗后保存的文件

data = pd.read_csv(datafile,encoding='utf-8') # 读取原始数据，指定 UTF-8 编码（需要用文本编辑器将数据装换为UTF-8 编码）

data = data[data['SUM_YR_1'].notnull() &

data['SUM_YR_2'].notnull()] # 票价非空值才保留

#只保留票价非零的，或者平均折扣率与总飞行公里数同时

为 0 的记录。

index1 = data['SUM_YR_1'] != 0

index2 = data['SUM_YR_2'] != 0

index3 = (data['SEG_KM_SUM'] == 0) &

(data['avg_discount'] == 0) # 该规则是“与”,书上给的代码无法正常运行，修改'*' 为 '&'

data = data[index1 | index2 | index3] # 该规则是“或”

print(data)

#data.to_excel(cleanedfile) # 导出结果————————————————————以下是处理

后数据————————

MEMBER_NO FFP_DATE

FIRST_FLIGHT_DATE GENDER FFP_TIER\

0 54993 2006/11/02 2008/12/24 男 6

1 28065 2007/02/19 2007/08/03 男 6

2 55106 2007/02/01 2007/08/30 男 6

3 21189 2008/08/22 2008/08/23 男 5

4 39546 2009/04/10 2009/04/1

5 男 6

5 56972 2008/02/10 2009/09/29 男 6

6 44924 2006/03/22 2006/03/29 男 6

7 22631 2010/04/09 2010/04/09 女 6

8 32197 2011/06/07 2011/07/01 男 5

9 31645 2010/07/05 2010/07/05 女 6

属性规约原始数据中属性太多，根据航空公司客户价值LRFMC 模型，选择与模型相关的六个属性。删除其他无用

属性，如会员卡号等等def reduction_data(data):

data = data[['LOAD_TIME', 'FFP_DATE',

'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM',

'avg_discount']]

data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(data['F FP_DATE'])

data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_AD TE'])).days)/30)

d_ffp = pd.to_datetime(data['FFP_DATE'])

d_load = pd.to_datetime(data['LOAD_TIME'])

res = d_load - d_ffp

data2=data.copy()

data2['L'] = res.map(lambda x: x / np.timedelta64(30 * 24 * 60, 'm'))

data2['R'] = data['LAST_TO_END']

data2['F'] = data['FLIGHT_COUNT']

data2['M'] = data['SEG_KM_SUM']

data2['C'] = data['avg_discount']

data3 = data2[['L', 'R', 'F', 'M', 'C']]

return data3

data3=reduction_data(data)

print(data3)

————————————以下是以上代码处理后数据————————————

L R F M C

0 90.200000 1 210 580717 0.961639

1 86.566667 7 140 293678 1.252314

2 87.166667 11 135 283712 1.254676

3 68.233333 97 23 281336 1.090870

4 60.533333

5 152 309928 0.970658

5 74.700000 79 92 294585 0.967692

6 97.700000 1 101 287042 0.965347

7 48.400000 3 73 287230 0.962070

8 34.266667 6 56 321489 0.828478

数据变换意思是，将原始数据转换成“适当”的格式，用来

适应算法和分析等等的需要。本案例，主要采用数据变换的

方式为属性构造和数据标准化 3.需要构造 LRFMC 的五个指

标 L=LOAD_TIME-FFP_DATE( 会员入会时间距观测窗口结

束的月数 =观测窗口的结束时间 -入会时间（单位：

月）)R=LAST_TO_END （客户最近一次乘坐公司距观测窗口结束的月数 =最后一次。。。）F=FLIGHT_COUNT( 观测窗口内的飞行次数 )M=SEG_KM_SUM( 观测窗口的总飞行里

程)C=A VG_DISCOUNT( 平均折扣率 )def zscore_data(data): data = (data - data.mean(axis=0)) / data.std(axis=0)

data.columns = ['Z' + i for i in data.columns] return

data

data4 = zscore_data(data3)

data4

————————————以下是以上代码处理后数据————————————

ZL ZR ZF ZM ZC

0 1.435707 -0.944948 14.034016 26.761154

1.295540

1 1.30715

2 -0.911894 9.07321

3 13.126864

2.868176

2 1.328381 -0.889859 8.718869 12.653481

2.880950

3 0.658476 -0.416098 0.781585 12.540622 1.994714

4 0.386032 -0.922912 9.923636 13.898736 1.344335

5 0.887281 -0.515257 5.671519 13.169947 1.328291

模型构建 1.客户聚类利用K-Means 聚类算法对客户数据进行客户分群，聚成五类（根据业务理解和需要，分析与讨论后，确定客户类别数量）

代码如下 inputfile =

r'/home/kesci/input/date27730/zscoreddata.xls' # 待聚类的数据文件

k = 5#需要进行的聚类类别数

#读取数据并进行聚类分析

data = pd.read_excel(inputfile) # 读取数据

#调用 k-means 算法，进行聚类分析

kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数，一般等于CPU 数较好

kmodel.fit(data) # 训练模型

r1 = pd.Series(https://www.doczj.com/doc/5112082592.html,bels_).value_counts()

r2 = pd.DataFrame(kmodel.cluster_centers_)

r = pd.concat([r2, r1], axis=1)

r.columns = list(data.columns) + [' 类别数目 ']

#print(r)

#r.to_excel(classoutfile,index=False)

r = pd.concat([data, pd.Series(https://www.doczj.com/doc/5112082592.html,bels_,

index=data.index)], axis=1)

r.columns = list(data.columns) + [' 聚类类别 ']

print(kmodel.cluster_centers_)

print(https://www.doczj.com/doc/5112082592.html,bels_)

[[-0.70078704 -0.41513666 -0.1607619-0.16049688

-0.25665898]

[-0.31411607 1.68662534 -0.57386257 -0.53661609 -

0.17243195]

[ 0.48347647 -0.79941777 2.48236495 2.42356419

0.30943042]

[ 1.16033496 -0.37744106 -0.0870043-0.09499704

-0.15836889]

[ 0.05165705 -0.00258448 -0.23089344 -0.23513858

2.17775056]]

[333...333]

ZL ZR ZF ZM ZC 聚类类别

0 1.689882 0.140299 -0.635788 0.068794 -0.337186 3

1 1.68988

2 -0.322442 0.85245

3 0.843848 -0.553613 3

2 1.68174

3 -0.487707 -0.210576 0.158569 -1.094680 3

3 1.534185-0.7851840.0020300.273091

-1.148787 3

40.890167-0.426559-0.635788-0.685170 1.231909 4

5-0.232618-0.690983-0.635788-0.603898

-0.3912930

6-0.496949 1.996225-0.706656-0.661752 -1.311107 1

就剩下最后一步，画图：def density_plot(data):

plt.rcParams['font.sans-serif']=['SimHei']

plt.rcParams['axes.unicode_minus']=False

p=data.plot(kind='kde',linewidth=2,subplots=True,sharex=False )

[p[i].set_ylabel(' 密度 ') for i in range(5)]

[p[i].set_title(' 客户群 %d' %i) for i in range(5)]

plt.legend()

plt.show()

return plt

density_plot(data4)

clu = kmodel.cluster_centers_

x = [1,2,3,4,5]

colors = ['red','green','yellow','blue','black']

for i in range(5):

plt.plot(x,clu[i],label='clustre

'+str(i),linewidth=6-i,color=colors[i],marker='o')

plt.xlabel('L R F M C')

plt.ylabel('values')

plt.show()

客户群 1： red，客户群 2： green，客户群 3： yellow ，客户

群 4： blue，客户群 5： black 客户关系长度 L，消费时间间隔R，消费频率 F，飞行里程 M ，折扣系数的平均值 C。

横坐标上，总共有五个节点，按顺序对应LRFMC 。

对应节点上的客户群的属性值，代表该客户群的该属性的程

度。 2.客户价值分析我们重点关注的是L ，F，M ，从图中可

以看到：

1、客户群 4[blue]的F,M很高，L也不低，可以看做是重要

保持的客户；

2、客户群 3[yellow]重要发展客户

3、客户群 1[red] 重要挽留客户，原因：入会时间长，但是

F,M 较低

4、客户群 2[green] 一般客户

5、客户群 5[black] 低价值客户重要保持客户： R（最近乘坐航班）低， F（乘坐次数）、C（平均折扣率高，舱位较高）、

M（里程数）高。最优先的目标，进行差异化管理，提高满

意度。重要发展客户： R 低， C 高， F 或 M 较低，潜在价值客户。虽然说，当前价值不高，但是却有很大的发展潜力，

促使这类客户在本公司消费和合作伙伴处消费。重要挽留客

户： C、 F、M 较高，但是较长时间没有乘坐（ R）小。增加与这类客户的互动，了解情况，采取一定手段，延长客户生

命周期。一般与低价值客户：C、 F、M、L 低， R 高。他们

可能是在公司打折促销时才会乘坐本公司航班。

3.模型应用会员的升级与保级（积分兑换原理相同）

会员可以分为，钻石，白金，金卡，银卡,

部分客户会因为不了解自身积分情况，错失升级机会，客户

和航空公司都会有损失

在会员接近升级前，对高价值客户进行促销活动，刺激他们

消费达到标准，双方获利交叉销售

通过发行联名卡与非航空公司各做，使得企业在其他企业消

费过程中获得本公司的积分，增强与本公司联系，提高忠诚度。管理模式

企业要获得长期的丰厚利润，必须需要大量稳定的、高质量

的客户。

维持老客户的成本远远低于新客户，保持优质客户是十分重

要的。

精准营销中，也有成本因素，所以按照客户价值排名，进行

优先的，特别的营销策略，是维持客户的关键。 4.小结本文结合航空公司客户价值案例的分析，重点介绍了数据挖掘算

法中 K-Means 聚类算法的应用。针对，传统RFM模型的不足，结合案例进行改造，设定了五个指标的LRFMC 模型。最后通过聚类的结果，选出客户价值排行，并且制定相应策

略本文作者

无小意， Python 中文社区专栏作者，知乎：无小意丶，金融

学在读学生，从零开始自学Python 以及相关的数据技能，对于 Python 学习，只想说别犹豫。

k-means聚类算法的研究全解

k-means聚类算法的研究 1．k-means算法简介 1.1 k-means算法描述给定n个对象的数据集D和要生成的簇数目k，划分算法将对象组织划分为k个簇（k<=n），这些簇的形成旨在优化一个目标准则。例如，基于距离的差异性函数，使得根据数据集的属性，在同一个簇中的对象是“相似的”，而不同簇中的对象是“相异的”。划分聚类算法需要预先指定簇数目或簇中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数收敛时，得到最终聚类结果。这类方法分为基于质心的（Centroid-based）划分方法和基于中心的（Medoid-based）划分方法，而基于质心的划分方法是研究最多的算法，其中k-means算法是最具代表和知名的。 k-means算法是1967年由MacQueen首次提出的一种经典算法，经常用于数据挖掘和模式识别中，是一种无监督式的学习算法，其使用目的是对几何进行等价类的划分，即对一组具有相同数据结构的记录按某种分类准则进行分类，以获取若干个同类记录集。k-means聚类是近年来数据挖掘学科的一个研究热点和重点，这主要是因为它广泛应用于地球科学、信息技术、决策科学、医学、行为学和商业智能等领域。迄今为止，很多聚类任务都选择该算法。k-means算法是应用最为广泛的聚类算法。该算法以类中各样本的加权均值（成为质心）代表该类，只用于数字属性数据的聚类，算法有很清晰的几何和统计意义，但抗干扰性较差。通常以各种样本与其质心欧几里德距离总和作为目标函数，也可将目标函数修改为各类中任意两点间欧几里德距离总和，这样既考虑了类的分散度也考虑了类的紧致度。k-means算法是聚类分析中基于原型的划分聚类的应用算法。如果将目标函数看成分布归一化混合模型的似然率对数，k-means算法就可以看成概率模型算法的推广。 k-means算法基本思想：（1）随机的选K个点作为聚类中心；（2）划分剩余的点；（3）迭代过程需要一个收敛准则，此次采用平均误差准则。（4）求质心（作为中心）；（5）不断求质心，直到不再发生变化时，就得到最终的聚类结果。 k-means聚类算法是一种广泛应用的聚类算法，计算速度快，资源消耗少，但是k-means算法与初始选择有关系，初始聚类中心选择的随机性决定了算法的有效性和聚

航空公司客户价值分析Kmeans

3.3 数据变换由于原始数据没有直接给出LRFMC五个指标，需要自己计算，具体的计算方式为：（1）L=LOAD_TIME-FFP_DATE （2）R=LAST_TO_END （3）F=FLIGHT_COUNT (4) M=SEG_KM_SUM （5）C=avg_discount 数据变换的Python代码如下： 1.def reduction_data(datafile,reoutfile): 2. data=pd.read_excel(cleanoutfile,encoding='utf-8') 3. data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGH T_COUNT','SEG_KM_SUM','avg_discount']] 4.# data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(d ata['FFP_DATE']) 5.# data['L']=int(((parse(data['LOAD_TIME'])-parse(data['F FP_ADTE'])).days)/30) 6.####这四行代码费了我3个小时 7. d_ffp=pd.to_datetime(data['FFP_DATE']) 8. d_load=pd.to_datetime(data['LOAD_TIME']) 9. res=d_load-d_ffp 10. data['L']=res.map(lambda x:x/np.timedelta64(30*24*60,'m')) 11. data['R']=data['LAST_TO_END'] 12. data['F']=data['FLIGHT_COUNT'] 13. data['M']=data['SEG_KM_SUM']

航空公司客户流失分析

扩展思考 1.背景与挖掘目标在国内航空市场竞争日益激烈的背景下，航空公司在客户流失方面应该引起足够的重视。如何改善流失问题，继而提高客户的满意度、忠诚度是航空公司维护自身市场并面对激烈竞争的一件大事，客户流失分析将成为帮助航空公司开展持续改进活动的指南。根据拓展思考数据实现以下目标：借助航空公司客户数据，对客户进行分类；针对目前老客户进行分类预测；构建客户·的流失模型，运用模型预测未来客户的类别归属。 2.1 数据抽取从航空公司系统内的详细数据中，根据末次飞行日期（LAST_FLIGHT_DATE)，抽取2021-6-4--2014-3-9内所有乘客详细信息。其中包含了会员卡号、入会时间、性别、年龄、会员卡级别、工作地城市、工作地所在省份、工作地所在国家、观测窗口结束时间、观测窗口乘机积分、飞行公里数、飞行次数、飞行时间、乘机时间间隔、平均折扣率等44各属性。 2.2 数据探索分析本案例的探索分析是对数据进行缺失值分析与异常值分析，分析出数据的规律以及异常值。通过对数据进行观察发现原始数据中存在票价最小值为0、总飞行公里数大于0的记录。可能是客户乘坐0折机票或者积分兑换造成的。数据探索分析代码 %% 数据空缺值探索,如果是字符串则返回缺失值个数， % 如果是数值型返回缺失值个数以及最大最小值 clear; % 参数初始化 datafile= '拓展思考样本数据.csv' ; % 航空原始数据,第一行为属性标签 logfile = 'log.txt'; % 日志文件 resultfile = 'explore.xls'; % 数据探索结果表 %% 读取数据 [num,txt] = xlsread(datafile); [rows,cols] = size(num); % 初始化结果变量 results = cell(5,cols+1); result = zeros(4,cols); results(:,1)= {'属性';'空记录数';'缺失率';'最大值';'最小值'}; results(1,2:end)=txt(1,:); % 记录日志 log_add(logfile,['文件' datafile '一共有' num2str(rows) ... '条记录']); %% 遍历所有列，进行空缺判断

聚类分析K-means算法综述

聚类分析K-means算法综述摘要：介绍K-means聚类算法的概念，初步了解算法的基本步骤，通过对算法缺点的分析，对算法已有的优化方法进行简单分析，以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。关键词：K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势算法概述 K-means聚类算法是一种基于质心的划分方法，输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准的k个聚类。评定标准：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算。解释：基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心，然后根据一个数据对象与簇质心的距离，再将该对象赋予最近的簇。 k-means 算法基本步骤（1）从n个数据对象任意选择k 个对象作为初始聚类中心（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分（3）重新计算每个（有变化）聚类的均值（中心对象）（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）形式化描述输入：数据集D，划分簇的个数k 输出：k个簇的集合（1）从数据集D中任意选择k个对象作为初始簇的中心；（2）Repeat （3）For数据集D中每个对象P do （4）计算对象P到k个簇中心的距离（5）将对象P指派到与其最近（距离最短）的簇；

（6）End For （7）计算每个簇中对象的均值，作为新的簇的中心；（8）Until k个簇的簇中心不再发生变化对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定这个K值的选定是非常难以估计的，很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适，这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k，例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定，在文献中，根据了方差分析理论，应用混合F统计量来确定最佳分类数，并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵RPCL算法，并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标：V(k km) = Intra(k) + Inter(k) / Inter(k max)，其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是：对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解不同的初始值，结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子，再利用迭代的重定位技术直到算法收敛。因此，初值的不同可能导致算法聚类效果的不稳定，并且，K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值，只有一个属于全局最小，由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围，因此通过迭代运算，目标函数常常达到局部最小，得不到全局最小。对于这个问题的解决，许多算法采用遗传算法(GA)，例如文献中采用遗传算法GA进行初始化，以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时,算法的时间开销是非常大所以需要对算法的时间复杂度进行分析，改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的候选集，而在文献中，使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

机器学习kmeans聚类算法与应用

机器学习算法day02_Kmeans聚类算法及应用课程大纲 Kmeans聚类算法原理Kmeans聚类算法概述 Kmeans聚类算法图示 Kmeans聚类算法要点 Kmeans聚类算法案例需求用Numpy手动实现用Scikili机器学习算法库实现 Kmeans聚类算法补充算法缺点改良思路课程目标： 1、理解Kmeans聚类算法的核心思想 2、理解Kmeans聚类算法的代码实现 3、掌握Kmeans聚类算法的应用步骤：数据处理、建模、运算和结果判定

1. Kmeans聚类算法原理 1.1 概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。 1.2 算法图示假设我们的n个样本点分布在图中所示的二维空间。从数据点的大致形状可以看出它们大致聚为三个cluster，其中两个紧凑一些，剩下那个松散一些，如图所示：我们的目的是为这些数据分组，以便能区分出属于不同的簇的数据，给它们标上不同的颜色，如图：

1.3 算法要点 1.3.1 核心思想通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。 k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 k-means算法的基础是最小误差平方和准则, 其代价函数是：式中，μc(i)表示第i个聚类的均值。各类簇内的样本越相似，其与该类均值间的误差平方越小，对所有类所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。上式的代价函数无法用解析的方法最小化，只能有迭代的方法。 1.3.2 算法步骤图解下图展示了对n个样本点进行K-means聚类的效果，这里k取2。

利用K-Means聚类进行航空公司客户价值分析

利用K-Means聚类进行航空公司客户价值分析 1.背景与挖掘目标 1.1背景航空公司业务竞争激烈，从产品中心转化为客户中心。针对不同类型客户，进行精准营销，实现利润最大化。建立客户价值评估模型，进行客户分类，是解决问题的办法 1.2挖掘目标借助航空公司客户数据，对客户进行分类。对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。详情数据见数据集内容中的 air_data.csv和客户信息属性说明 2.分析方法与过程 2.1分析方法首先，明确目标是客户价值识别。识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency）,消费频率（Frequency）,消费金额（Monetary））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。因此，需要修改指标。选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素=一定时间内积累的飞行里程=M。再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标L=入会时间长度=客户关系长度总共确定了五个指标，消费时间间隔R，客户关系长度L，消费频率F，飞行里程M和折扣系数的平均值C以上指标，

作为航空公司识别客户价值指标，记为LRFMC模型如果采用传统的RFM模型，如下图。它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC模型为基础本案例，总体流程如下图 2.2挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤2中的已处理数据作为建模数据，基于旅客价值的LRFMC模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户） 2.3数据抽取选取，2014-03-31为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据 2.4探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。发现，存在票价为控制，折扣率为0，飞行公里数为0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码

第二讲聚类Kmeans算法跟运用 (K-means cluster)

CLEMENTINE 1212 CLEMENTINE --SEGMENTATION（K-MEANS）

何谓集群分析何谓集群分析((CLUSTERING ANALYSIS ) 集群分析是一种将样本观察值进行分析，具有某些共同特性者予以整合在一起，再将之分配到特定的群体，最后形成许多不同集群的一种分析方法。Clementine 12.0中提供的集群分析方法有三种： 1. K-means 2. Two-step 3. Kohonen

K-MEANS的理论背景 K-Means是集群分析(Cluster Analysis)中一种非阶层式((Nonhierarchical))的演算方法，由J. B. Mac Queen于1967年正式发表，也是最早的组群化计算技术。其中，非阶层式则是指在各阶段分群过程中，将原有的集群予以打散，并重新形成新的集群。 K-Means是一种前设式群集算法，也就是说必须事前设定群集的数量，然后根据此设定找出最佳群集结构。而K-Means算法最主要的概念就是以集群内资料平均值为集群的中心。

计算距離并分群的中心点重新计算新的距離并分群

不断重复步骤三四，直到所设计的停止条件发生。一般是以没有任何对象变换所属集群为停止绦件，也就是所谓的s q u a r e -e r r o r c r i t e r i o n ：代表集群的中心(平均数)，是集群内的物件，则代表集群。 2 1 0i K i p C i E p m =∈=?=∑∑ i m i p i i C i

K-MEANS的基本需求与优缺点建立K-means模型的要求：需要一个以上的 In字段。方向为Out、Both、None的字段将被忽略。优点：建立K-means模型不需要分组数据。对于大型数据集，K-means模型常常是最快的分群方法。缺点：对于初始值的选择相当敏感，选择不同的初始值，可能会导致不同的分群结果。

第9章rapidminer_k_means聚类.辨别分析v1

第9章K-Means 聚类、辨别分析 9.1理解聚类分析餐饮企业经常会碰到这样的问题： 1）如何通过餐饮客户消费行为的测量，进一步评判餐饮客户的价值和对餐饮客户进行细分，找到有价值的客户群和需关注的客户群？ 2）如何合理对菜品进行分析，以便区分哪些菜品畅销毛利又高，哪些菜品滞销毛利又低？餐饮企业遇到的这些问题，可以通过聚类分析解决。 9.1.1常用聚类分析算法与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组样本最小化而组间（外部）距离最大化，如图9-1所示。图9-1 聚类分析建模原理常用聚类方法见表9-1。表9-1常用聚类方法类别包括的主要算法

常用聚类算法见图9-2。表9-2常用聚类分析算法 9.1.2K-Means聚类算法 K-Means算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。 1.算法过程 1）从N个样本数据中随机选取K个对象作为初始的聚类中心； 2）分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中； 3）所有对象分配完成后，重新计算K个聚类的中心； 4）与前一次计算得到的K个聚类中心比较，如果聚类中心发生变化，转2)，否则转 5)； 5）当质心不发生变化时停止并输出聚类结果。聚类的结果可能依赖于初始聚类中心的随机选择，可能使得结果严重偏离全局最优分类。实践中，为了得到较好的结果，通常以不同的初始聚类中心，多次运行K-Means算法。在所有对象分配完成后，重新计算K个聚类的中心时，对于连续数据，聚类中心取该簇的均值，但是当样本的某些属性是分类变量时，均值可能无定义，可以使用K-众数方

英国航空公司的客户关系管理

Abstract 2,129 words British Airways (BA) has always devoted into the most profitable airline company in the world. In the year of 1992, European Union published a proposed law, that the barrier of airline trade had been cancelled. It means that each airline company in the EU district can fly in the designated area. As the result of this, a large number of competitors who are new and low cost appeared, BA had not responded quickly to the change, and then had a 1,600 million loss in 2000, this is the first loss in the history of BA. However, Rod Eddington, the CEO of BA had utilized CRM strategy to remedy and improve the loss and situation, and then gain 5,580 million in the next two year. (Weiyun, S. 2005) Introduction Nowadays, the competition among enterprises is increasingly intense, the difference, that between the products or service from hundreds of enterprise is more and more tiny relatively. Whether the enterprises can create customer satisfaction and interact with the existing customers or not will become the most important elements which can he lp to survive and develop in today’s era of the business realm. Generally, CRM is a continuous process that communicates with right customers and understands what they needed, and then improve the products and services in order to make satisfaction.

客户关系管理案例分析

客户关系管理案件分析案例一

在美国航空业流传着这样一个故事：西南航空公司遇到了一位误了班机的乘客，而该乘客要去参加本年度最重要的商务会议。于是，他们专门调拨了一架轻型飞机，将该乘客送往目的地。正是这样竭尽全力“讨好”乘客的法宝，使这家原本不起眼的小航空公司跻身于美国前四大航空公司之列。航空业是一个资本密集型的行业，用在飞机上的费用数量是十分巨大的。另外，航空公司还必须提供超级的服务。航班延迟、行李丢失、超额订票、航班取消以及不能为乘客提供优质服务的员工等情况都会使乘客迅速疏远某个航空公司。对有些企业来讲，“以顾客为中心”只不过是一句口号而已。然而在西南航空公司，这却是一个每天都在追求的目标。比如，西南航空公司的员工对顾客的投诉所做出的反应是非常迅速的：有五名每周需要通过飞机通勤到外州医学院上学的学生告诉西南航空公司说，对他们来说最方便的是那个航班却总是使他们每次要迟到15分钟。于是，为了适应这些学生的需要，西南航空公司就把航班的起飞时间提前了整整一刻钟。案例二 2000年8月，海尔在全球开展的“我的冰箱我设计”海尔冰箱B2C产品个性化定制活动。哈尔滨用户宋明伟先生因房间摆放需要,想要一台左开门冰箱,他首先想到了海尔,到海尔网站一看,果然有用户定制服务，用户可以选择冰箱开门方式等10几个特殊需求，他按需求下订单后，海尔冰箱公司立即组织技术人员进行技术攻关。为了满足用户的个性化需求，海尔冰箱事业部经过紧张的现场研制和技术改造，克服了一系列技术方面的难题，4天后终于生产出了完全符合质量标准的左开门海尔冰箱。目前海尔的国外客户只要根据当地气候、电压条件及风俗习惯订购特需冰箱，海尔均能在一周内拿出样机，一月内组织批量生产。海尔电子商务的推出，解决了家电产品在新经济时代如何满足消费者个性化需求这一难题，真正实现了生产厂商与消费者之间的零距离。“假如你想要一台三角形的冰箱，你只需打开互联网上的海尔网站，根据网上提供的模块，设计你所需要的产

K-MEANS聚类算法的实现及应用

内容摘要本文在分析和实现经典k-means算法的基础上，针对初始类中心选择问题，结合已有的工作，基于对象距离和密度对算法进行了改进。在算法实现部分使用vc6.0作为开发环境、sql sever2005作为后台数据库对算法进行了验证，实验表明，改进后的算法可以提高算法稳定性，并减少迭代次数。关键字 k-means；随机聚类；优化聚类；记录的密度 1 引言 1.1聚类相关知识介绍聚类分析是直接比较各事物之间性质，将性质相近的归为一类，将性质不同的归为一类，在医学实践中也经常需要做一些分类工作。如根据病人一系列症状、体征和生化检查的结果，将其划分成某几种方法适合用于甲类病的检查，另几种方法适合用于乙类病的检查，等等。聚类分析被广泛研究了许多年。基于聚类分析的工具已经被加入到许多统计分析软件或系统中，入s-plus,spss,以及sas。大体上，聚类算法可以划分为如下几类： 1) 划分方法。 2) 层次方法。 3) 基于密度的算法。 4) 基于网格的方法。 5) 基于模型的方法。 1.2 研究聚类算法的意义在很多情况下，研究的目标之间很难找到直接的联系，很难用理论的途径去解决。在各目标之间找不到明显的关联，所能得到的只是些模糊的认识，由长期的经验所形成的感知和由测量所积累的数据。因此，若能用计算机技术对以往的经验、观察、数据进行总结，寻找个目标间的各种联系或目标的优化区域、优化方向，则是对实际问题的解决具有指导意义和应用价值的。在无监督情况下，我们可以尝试多种方式描述问题，其中之一是将问题陈述为对数分组或聚类的处理。尽管得到的聚类算法没有明显的理论性，但它确实是模式识别研究中非常有用的一类技术。聚类是一个将数据集划分为若干聚类的过程，是同一聚类具有较高相似性，不同聚类不具相似性，相似或不相似根据数据的属性值来度量，通常使用基于距离的方法。通过聚类，可以发现数据密集和稀疏的区域，从而发现数据整体的分布模式，以及数据属性间有意义的关联。 2 k-means算法简介 2.1 k-means算法描述 k-means 算法接受输入量k，然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”来进行计算的。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。 k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 2.2 k-means算法实现步骤在原始的k-means算法中，由于数据对象的分类被不断地调整，因此平均误差准则函数在每次迭代过程中的值必定在不断减小。当没有数据对象被调整时，e（e指每个对象到该类中心的距离平方之和）的值不再变化，说明算法运行结果已经达到最优，同时算法运行结束。

利用K-Means聚类进行航空公司客户价值分析.doc

利用 K-Means 聚类进行航空公司客户价值分析 1.背景与挖掘目标 1.1 背景航空公司业务竞争激烈，从产品中心转化为客户中心。针对不同类型客户，进行精准营销，实现利润最大化。建立客户价值评估模型，进行客户分类，是解决问题的办法 1.2 挖掘目标借助航空公司客户数据，对客户进行分类。对不同的客户类别进行特征分析，比较不同类客户的客户价值对不同价值的客户类别提供个性化服务，制定相应的营销策略。详情数据见数据集内容中的 air_data.csv 和客户信息属性说明 2.分析方法与过程 2.1 分析方法首先，明确目标是客户价值识别。识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency） ,消费频率（ Frequency）,消费金额（ Monetary ））以上指标简称RFM 模型，作用是识别高价值的客户消费金额，一般表示一段时间内，消费的总额。但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。因此，需要修改指标。选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素 =一定时间内积累的飞行里程 =M 。再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标 L= 入会时间长度 =客户关系长度总共确定了五个指标，消费时间间隔 R，客户关系长度 L ，消费频率 F，飞行里程 M 和折扣系数的平均值 C 以上指标，

作为航空公司识别客户价值指标，记为LRFMC 模型如果采用传统的 RFM 模型，如下图。它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC 模型为基础本案例，总体流程如下图 2.2 挖掘步骤从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换利用步骤 2 中的已处理数据作为建模数据，基于旅客价值的 LRFMC 模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户） 2.3 数据抽取选取， 2014-03-31 为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据 2.4 探索性分析本案例的探索分析，主要对数据进行缺失值和异常值分析。发现，存在票价为控制，折扣率为 0，飞行公里数为 0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，查找每列属性观测值中空值的个数、最大值、最小值的代码

matlab实现Kmeans聚类算法

matlab实现Kmeans聚类算法 1.简介： Kmeans和应用于混合高斯模型的受限EM算法是一致的。高斯混合模型广泛用于数据挖掘、模式识别、机器学习、统计分析。Kmeans 的迭代步骤可以看成E步和M步，E：固定参数类别中心向量重新标记样本，M：固定均值只考虑（估计）了均值，而没有估计类别的方差，所以聚类的结构比较适合于特征协方差相等的类别。 Kmeans在某种程度也可以看成Meanshitf的特殊版本，Meanshift 是所以Meanshift可以用于寻找数据的多个模态（类别），利用的是梯度上升法。在06年的一篇CVPR文章上，证明了Meanshift方法是牛顿拉夫逊算法的变种。Kmeans和EM算法相似是指混合密度的形式已知（参数形式已知）情况下，利用迭代方法，在参数空间中搜索解。而Kmeans和Meanshift相似是指都是一种概率密度梯度估计的方法，不过是Kmean选用的是特殊的核函数（uniform kernel），而与混合概率密度形式是否已知无关，是一种梯度求解方式。 k-means是一种聚类算法，这种算法是依赖于点的邻域来决定哪些点应该分在点，也可以对高维的空间（3维，4维，等等）的点进行聚类，任意高维的空间都可以。上图中的彩色部分是一些二维空间点。上图中已经把这些点分组了，并使用了不同的颜色对各组进行了标记。这就是聚类算法要做的事情。这个算法的输入是： 1：点的数据（这里并不一定指的是坐标，其实可以说是向量）

2：K，聚类中心的个数（即要把这一堆数据分成几组）所以，在处理之前，你先要决定将要把这一堆数据分成几组，即聚成几类。但并不是在所有情况下，你都事先就能知道需要把数据聚成几类的。意味着使用k-means就不能处理这种情况，下文中会有讲解。把相应的输入数据，传入k-means算法后，当k-means算法运行完后，该算法的输出是： 1：标签（每一个点都有一个标签，因为最终任何一个点，总会被分到某个类，类的id号就是标签） 2：每个类的中心点。标签，是表示某个点是被分到哪个类了。例如，在上图中，实际上有4中“标签”，每个“标签”使用不同的颜色来表示。所有黄色点我们可以用标签以看出，有3个类离的比较远，有两个类离得比较近，几乎要混合在一起了。当然，数据集不一定是坐标，假如你要对彩色图像进行聚类，那么你的向量就可以是(b,g,r)，如果使用的是hsv颜色空间，那还可以使用(h,s,v),当然肯定可以有不同的组合例如(b*b,g*r,r*b) ，(h*b,s*g,v*v)等等。在本文中，初始的类的中心点是随机产生的。如上图的红色点所示，是本文随机产生的初始点。注意观察那两个离得比较近的类，它们几乎要混合在一起，看看算法是如何将它们分开的。类的初始中心点是随机产生的。算法会不断迭代来矫正这些中心点，并最终得到比较靠5个中心点的距离,选出一个距离最小的(例如该点与第2个中心点的距离是5个距离中最小的),那么该点就归属于该类.上图是点的归类结果示意图. 经过步骤3后,每一个中心center(i)点都有它的”管辖范围”,由于这个中心点不一定是这个管辖范围的真正中心点,所以要重新计算中心点,计算的方法有很多种,最简单的一种是,直接计算该管辖范围内所有点的均值,做为心的中心点new_center(i). 如果重新计算的中心点new_center(i)与原来的中心点center(i)的距离大于一定的阈值（该阈值可以设定），那么认为算法尚未收敛，使用new_center(i)代替center(i)（如图，中心点从红色点

航空公司客户服务计划

航空公司客户服务计划本客户服务计划，系根据美国交通部关于加强航空公司乘客保护方面的最终规则制定，适用于往来美国的航班。然而，这并不意味本客户服务计划中列出的某些服务和保证条款不提供给其他的非美国航班。 1. 新加坡航空公司将始终通过我们的网站、我们的售票柜台，以及我们的电话预订热线，告知乘客我们所提供的最低票价可能位于其他的位置。 2. 新加坡航空公司会按时交付行李，在合理范围内尽一切努力，在24小时内送还处理不当的行李，会按照适用的国际协定要求，为乘客提供合理的与行李延迟交付相关的费用补偿，并为行李丢失的乘客提供赔偿。 3. 新加坡航空公司在收到完整的退款申请后，将在机票退款到期应付的情况下，立即提供退款——通过信用卡购票的，将在七个工作日内退款;用现金或支票购票的，将在20个工作日内退款。 4. 新加坡航空公司会根据14 CFR Part 382，搭载行动不便的乘客以及其他有特殊需要的乘客，包括在较长的停机坪延误情况期间。这包括：

a) 提供往返登机门以及各个登机门之间的轮椅交通协助服务; b) 登机援助; c) 在机场和飞机上，为患有视觉损伤、听觉损伤、认知障碍的乘客，或行动不便的乘客提供帮助; d) 满足某些医疗需求，比如搭载便携式电子医疗设备。 5. 在较长时间的停机坪延误情况下，新加坡航空公司会根据新航《停机坪延误应急计划》中的规定，满足客户的各种需求。 6. 如果您已出票的航班出现超额预订，那么应您的要求，新加坡航空公司将就此通知您相关情况。另外，我们也将在美国各个机场提供有关我们用以处理相关航班无法容纳所有出票乘客这种情况的政策和程序。 7. 我们的网站上提供新加坡航空公司的航班取消政策、常飞旅客规则、飞机座位配置和盥洗室可用性情况等信息，应乘客要求，新航也会通过我们的电话预订系统提供此类信息。 8. 新加坡航空公司将及时通知消费者其行程变动情况。

航空公司关系营销及关系构建

图1航空客运服务流程工作研究综合运输的被调查者拥有1家航空公司的常旅客卡，其余84.8%的被调查者都拥有1家以上航空公司的常旅客卡，由此可以看出大多数常旅客是不忠诚的。社交层次营销比财务层次营销前进了一大步，但是当面临激烈的价格竞争时，两个层次的营销都只能支撑价格变动的小额涨幅，当面对较大价格差别时，交易双方难以维持低层次的销售关系。 3.航空公司三级关系营销——结构层次营销航空公司的三级关系营销是指公司在向顾客提供财务利益和社会利益的同时，与交易伙伴结成结构纽带稳定联系。这种服务的提供依赖于航空公司通过自身竞争优势建立起公司的核心竞争力。目前，国内外的各大航空公司开始利用信息化技术，建立各自的功能化信息系统，以此来提高顾客的满意度和忠诚度。例如，荷兰航空公司将在飞机上引进实时短信和空地数据链系统。通过该系统，一线的服务人员可以随时掌握顾客的信息（姓氏、爱好和里程价值等），顾客也能掌握旅行的各种相关信息（航班动态、目的地天气）。南方航空公司借鉴国外先进经验建立了高端旅客管理系统，应用信息化技术推动高端旅客服务流程再造。该系统可以识别出高端旅客行程预报，提醒相关部门及时准备，为高端旅客提供自购买机票起至离开目标航站候机楼整个旅行全流程个性化的服务。此外，系统可以从运行控制中心获得航班的动态信息，如果发现异常，将及时发送短信息通知高端旅客，方便其安排具体行程。公司还可以通过该系统对高端旅客进行跟踪管理，跟踪其具体行程，并提供出行目的地天气预报短信服务。如果公司有新产品上市，可以通过短信平台优先通知高端旅客。结构层次营销是最高的层次，可通过结构性联系，附加财务利益和社会利益，与顾客增强联系。当面临激烈的价格竞争时，结构性联系能为扩大现在的社会联系提供一个非价格动力。当面对较大的价格差别时，交易双方难以维持低层次的销售关系，只有通过提供顾客需要的技术服务和援助等深层次联系才能吸引客户，形成忠诚的顾客。三、航空公司顾客关系构建策略对企业而言，忠诚的顾客有着较高的终生价值。根据帕累托提出的20/80原理，忠诚的顾客量虽然不大，但却是企业的主要利润来源，能够为企业带来稳定的收益。由于有忠诚顾客价值的保障，使企业能够通过各种措施来刺激顾客，从而发挥边际收益效应。而实行顾客关系营销的最终目的就是培育忠诚的顾客。从关系营销构成——梯度推进的角度看，航空公司目前实施的顾客关系营销策略多数只停留在前两个阶段。综合运用3种关系营销手段，使顾客成为企业长期合作的伙伴，从而让企业在激烈的市场竞争中立于不败之地。1.给顾客提供额外利益，使顾客的转换成本更高航空公司的核心服务是为顾客提供安全、便捷、舒适的航空旅行。航空公司要提高顾客的满意程度，增进双方的关系，必须明显地提高核心服务的消费价值。美国著名营销学家贝里说过，增值服务也是提高关系质量的一个重要措施。如果航空公司能提供客户需要的、竞争对手又难以模仿的增值服务，就能与客户增强关系。2.鼓励顾客的“忠诚”行为首先，公司的管理人员应注意区别不同的顾客，公司必须为最好的顾客提供最大的消费价值，以便进一步提高他们的忠诚感。其次，管理人员要考虑不同的顾客在乘机频率方面的差异，分析特殊礼遇方案能否直接或间接提高本企业的经济收益。3.通过与顾客建立相互学习关系，增强双方之间的结构性关系航空公司可以利用数据库技术，记录顾客与公司交往的信息，深入了解顾客的需要，并根据顾客的偏爱，为顾客提供定制化的产品和服务。企业与顾客建立相互学习关系，增强双方之间的结构性关系，既可为顾客提供更多利益，降低企业的成本费用，又可增大顾客与竞争对手重建学习关系的代价。4.航空客运服务流程优化从旅客的角度看，航空客运服务流程（如图1所示）的过程控制并不是单一的责任主体就可以完成的。在这个过程中，既有航空运输服务业（如航空公司、机场、客票销售代理人），也有非航空运输服务企业（如航空器制造商、公共交通企业等）。在这样多责任主体的环境下，要做到服务的一致性与完整性，就必须根据各个企业的特点与服务的职责，进行航空客运服务的流程优化，从而保证客户服务的质量与水平。5.以为创造顾客价值为核心管理者应该认识到，关系构建策略也应该以创造顾客价值为核心。航空公司应该努力提高对顾客的服务质量，来为顾客创造更多地价值。只有为顾客创造了真正的价值，才能促使公司与顾客之间结构性关系的形成。6.航空公司合作伙伴管理企业通过合作伙伴获得更多客户，更好地维持已有客户，并增强客户的活跃度，降低运营成本以增加自身的收益。近年来，航空公司也逐渐与合作伙伴之间开展交叉销售，借以在销售上获得更大的利润。航空公司合作伙伴将提供酒店、租车、银行、航空联盟的信息，这在无形当中延长了对顾客的服务价值链，提高了旅客出行的便利性，从而增强了双方的结构性关系。7.顾客参与交易管理据研究表明，企业制定并实施的关系构建策略，哪怕这些策略实施的初衷的确是为顾客创造价值或者培育良好的关系氛围，有时候顾客却未必这样认可，从而可能导致顾客对企业行为和意愿上的机会主义感知，甚至于会危及到企业与顾客的结构性关系。为了避免或者减少这种状况的出现，应从顾客角度出发，实施顾客参与交易管理的策略，有效增强双方的结构性关系。（作者单位：南京航空航天大学民航学院；广州民航职业技术学院；中国南方航空公司）

图像处理-K-means聚类处理

基于K-means的彩色图像聚类分割算法图像分割技术是图像分析和模式识别的重要内容，近些年，图像分割算法新思路如小波变换边缘检测、分形图像分割、运动一致性分割以及马尔科夫、人工神经网络的分割技术相继而生。其中灰度图像处理的分割技术和方法相对较成熟，但相对于灰度图，彩色图包含了更多的信息，同时处理也变得更为复杂和耗时。随着计算机技术的发展以及廉价设备性能的提高，彩色图像处理技术日益广泛。彩色图像分割就是模拟人类视觉系统的特点，根据颜色差异、纹理特征等将图像划分为不同物理意义的连通区域。而聚类算法是发现事物自然分类的一种方法，属于机器学习及模式识别的一个重要领域。聚类算法在灰度图像的分割有着重要的应用，通过保持类内最大的相似性及类间最大的距离，迭代优化获得最佳的图像分割阈值。对于一副彩色图像，可以利用聚类分析依据颜色视觉上的不同将其划分为不同系列的具有相似部分的区域，即实现彩色图像聚类分割算法。利用K-means聚类对彩色图像进行分割，通常使用的颜色空间有RGB颜色空间、HIS颜色空间、HSV颜色空间、XYZ颜色空间、Lab颜色空间等。其中RGB 颜色空间可表示大部分颜色，但就其各个分量间关联性过强，不宜直接用于图像分割；HIS、HSV颜色模型需要转换颜色空间，空间转换计算相对复杂，如果要得到好的分割结果需要处理色调和饱和度两个分量；Lab 颜色空间是基于XYZ 颜色空间转换而来的均匀颜色空间，更符合人眼的视觉特性，从RGB 空间到Lab 空间的转换需要XYZ 颜色空间作为桥梁，即必须先将图像由RGB 颜色空间转换到XYZ 颜色空间，才能进一步转到Lab 空间。考虑图像分割算法的准确性，本文采取一种Lab颜色空间模型结合K-means算法实现彩色图像的分割。 1、颜色空间选取

文档之家

利用K-Means聚类进行航空公司客户价值分析.doc

k-means聚类算法的研究全解

航空公司客户价值分析Kmeans

航空公司客户流失分析

聚类分析K-means算法综述

机器学习kmeans聚类算法与应用

利用K-Means聚类进行航空公司客户价值分析

第二讲 聚类Kmeans算法跟运用 (K-means cluster)

第9章rapidminer_k_means聚类.辨别分析v1

英国航空公司的客户关系管理

客户关系管理案例分析

K-MEANS聚类算法的实现及应用

利用K-Means聚类进行航空公司客户价值分析.doc

matlab实现Kmeans聚类算法

航空公司客户服务计划

航空公司关系营销及关系构建

图像处理-K-means聚类处理

第二讲聚类Kmeans算法跟运用 (K-means cluster)