当前位置：文档之家› 聚类分析方法小结

聚类分析方法小结

简单点说：分类是将一片文章或文本自动识别出来，按照先验的类别进行匹配，确定。聚类就是将一组的文章或文本信息进行相似性的比较，将比较相似的文章或文本信息归为同一组的技术。分类和聚类都是将相似对象归类的过程。区别是，分类是事先定义好类别，类别数不变。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合，比如按照国图分类法分类图书；聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端，比如多文档文摘、搜索引擎结果后聚类(元搜索)等。

分类(classification )是找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。分类技术在数据挖掘中是一项重要任务,目前商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。

要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：(v1,v2,...,vn; c)；其中vi表示字段值，c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。

不同的分类器有不同的特点。有三种分类器评价或比较尺度：1)预测准确度；

2)计算复杂度；3)模型描述的简洁度。预测准确度是用得最多的一种比较尺度，特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境，在数据挖掘中，由于操作对象是巨量的数据，因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务，模型描述越简洁越受欢迎。

另外要注意的是，分类的效果一般和数据的特点有关，有的数据噪声大，有的有空缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据

聚类(clustering)是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

1．含义

根据事物本身的特性研究个体分类的方法，是研究事物分类的基本方法。其是为了某种目的做的工作，并非真实存在所分的类。

2．原则

同一类中的个体相似性大，不同类中的个体差异很大。

3．分类

(1)按聚类对象分：

样品聚类：对观测量聚类，对反映被观测对象特征的各个变量值进行分类。目的是判断研究对象的属类。

变量聚类：根据所研究的问题选择反映事物某些特点的部分变量来研究事物的某方面。目的是找出彼此独立的有代表性的变量，以便在用少量有代表性变量代替众多变量时，损失信息很少。

(2)按聚类过程分：

分解方法：首先把所有个体认为一大类，然后根据距离最近或性质相似逐层分解，直到每个个体自成小类为止。

凝聚方法：首先把每个个体认为一小类，然后根据距离最近或性质相似逐步合并，直到所有个体一个大类为止。

4．3．2内容过程

1．数据准备

这里运用聚类分析方法对我国部分东西部地区的经济发展进行综合评价。2．方法选择

按分析Analyze—聚类Classify—分层聚类Hierachical Classify的顺序展开如图4．10所示对话框。从左侧原始变量备选框中指定参与分析变量送入右侧变

量Variable(s)框中。在聚类栏Classify选择聚类类型—观测量聚类Cases或变量聚类Variable，若做观测量聚类，还需指定一个标识变量送到样本标签框Label Cases by中。在输出显示栏系统默认选择统计量和图形。

单击方法选择Method功能按钮，展开对话框。

(1)聚类方法Cluster Method：定义、计算两项之间距离或相似性的方法。

组间连接：合并两类后使所有对应两项之间的平均距离最小。

组内连接：合并后使类中所有项之间的平均距离（平方）最小。

最近邻法：用两类之间最近点间的距离代表两类间的距离。

最远邻法：用两类之间最远点间的距离代表两类间的距离。

重心聚类：以计算所有各项均值间距离的方法计算两类间距离。

中位数法：以各类中的中位数为类中心。

最小方差：以类间方差最小为聚类原则。

(2)测度方法Measure：测度距离或相似性的算法。

方法一般与定义方法对应一致。聚类方法不同，测度算法相应不同，聚类结果会有区别。若方法与算法不一致，则输出警告提示，结果不能成立。

测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有：

欧氏距离：（∑（Xi-Yi）2）1/2，即两项间的差是每个变量值差的平方和再平方根，目的是计算其间的整体距离即不相似性。

距离平方：∑（Xi-Yi）2，目的是减少误差。

相似测度：∑（XiYi）2/（（∑Xi2）（∑Yi2）），即两项间的相似性是向量间的余弦，值域-1—1，用0值表示相互垂直。

皮氏相关：∑（ZXiZYi）2/（n-1），即两项间的相似性是向量间的线性相关性，范围-1—1，0值表明非线性相关。

切氏距离：Max|Xi-Yi|，即两项间的距离是变量间最大差值的绝对值。

布氏距离：∑|Xi-Yi|，两项间的距离是每个变量值之差的绝对值总和。

明氏距离：（∑|Xi-Yi|p）1/p。

自定距离：（∑|Xi-Yi|p）1/r。若r=p，则为明氏距离。

(3)数据转换T ransform Values：为消除量纲不同的影响。

若参与分析的变量量纲一致，则不需标准化转换。但不同的标准化会导致不同的聚类结果，因此选择方法注意与变量分布相对应。

标准化到Z分数：变量均值为0、标准差为1，（每个值-均值）/标准差。

标准化到某范围：范围-1—1，每个值/范围。

标准化到某一值：最大值为1，每个值/最大值。

标准化到某范围：范围0—1，（每个值-最小值）/范围。

标准化到某一值：均值的一个范围，每个值/均值。

标准化到标准差：单位标准差，每个值/标准差。

(4)测度转换T ransform Measure：已计算相似性或不相似性，则不需转换。距离取绝对值：

距离顺序颠倒：相似性值与不相似性值互变。

使距离标准化：（距离-最小值）/范围。

3．输出选择

(1)统计量

在主对话框单击Statistics出现对话框。

系统默认输出凝聚状态表Agglomeration schedule，其显示聚类每一步的合并过程、被合并两项间的距离、合并后的类水平，据此可以跟踪合并过程和观察接近程度。但需注意，选择不同的聚类方法、测度方法和标准化法，聚类的过程和结果不同。

还需选择输出分类结果，或指定类数Single solution，或限定类数范围Range of solution，但都取决于聚类类型选择。

(2)统计图

在主对话框单击Plot出现对话框。

树形图Dendrogram表明聚类每一步过程中被合并的类和系数值。其与凝聚状态表一致，侧重表示聚类的过程，同时直观体现聚类后的结果。

冰柱图Icicle综合聚类信息在同一图上，其侧重表示聚类的结果。可以选择观察全过程All clusters，或指定聚类范围Specified range of clusters，并需选定显示方向Orientation为纵向或横向。

两图都是确定分类结果的重要手段，但最后分类结果还需要研究者根据研究对象和研究目的自行确定。

(3)新变量

在主对话框单击Save出现对话框。

当通过统计量和统计图的分析而确定研究对象的分类结果后，需要保存分类变量在数据文件中，以便进一步分析时使用。

可选择保存单一结果Single solution，其指定类数后，变量表明每个个体聚类后所属的类。或选择指定范围结果Range of solution，其指定范围后，若干变量中每个变量均表明每个个体聚类后所属的类。

变量聚类不建立新变量。

4．分析评价

(1)聚类过程

自左至右各列依次为聚类步骤的顺序、合并的两项序号、距离的测度数值、合并的两项类号、合并结果的类号，该表详细表明了聚类过程的顺序、每步合并的来源、每次合并结果的去向、合并的依据。

选择不同的聚类方法和不同的测度算法，聚类的过程和结果均会不同，其中距离测度数值的描述方式也不同。这里因为选择皮氏相关作为距离测度方法，所以相关系数大即相似性强的两项先合并。若选择不相似性的测度方法，则可能数值小的两项先合并。

(2)聚类结果

显示按不同的分类方式给出的分类结果，具体应用哪类结果，需由聚类选择方法分析确定。

(3)聚类选择

冰柱图从“×”最少处开始逐个增加依次分类。此图可以清楚地看到所有项最后聚为一类的全过程。

树形图可以反映聚类的全过程。应用时，一般用直尺竖直放在图面上左右平移，在合并的竖线之间间隔最大距离的区间停止，则为最佳的分类方案。这时与直尺相交的每根横线就是一类，横线左端所包括的各项就是该类的成员。这样处理，各类的特点比较突出而容易定义。

两图都是确定分类结果的重要手段，但由于选择不同的聚类方法和测度算法，而造成分类的过程和结果有所不同，所以最后分类结果还需要研究者结合研究对象和研究目的自行确定。

(4)应用分析

4．3．3小结

方法（聚类、测度、标准）选择需要反复试验确定最优效果，但不同方法的结果差别不应很大，否则说明聚类变量的选择不真正反映观测量的分类特征。

观测量分类结果需要根据研究对象和研究目的由自己确定，因此一定要结合专业知识、同时认真观察原始数据特征，谨慎得出结论，并对分成各类命名。

变量聚类如何合并多个具有共同特征的变量、选择典型变量作为代表变量，主要根据专业知识、测量难易程度、变量相关系数进行。

在进行其它分析方法前，往往首先进行聚类分析，以便减少工作量、节省测量时间，又不影响分析结果；同时也是选择相互独立变量的非常实用方法。

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用＊戴晓燕1　过仲阳1　李勤奋2　吴健平1 (1华东师范大学教育部地球信息科学实验室　上海　200062) (2上海市地质调查研究院　上海　200072) 摘　要　作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。关键词　空间聚类　K-均值法　散度 1　前言随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2　划分法设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— ＊基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学地理系硕士研究生,主要从事空间数据挖掘的研究。 · 41 · 2003年第4期上海地质 Shanghai Geology

肤色在各颜色空间的聚类分析

肤色在各颜色空间的聚类分析摘要肤色是人体表面最显著的特征之一。对不同肤色在RGB、YCbCr颜色空间内和同一肤色在不同亮度环境下的聚类情况进行深入的分析研究,发现肤色在YCbCr空间内聚类效果更好,更适合做肤色分割。然后在此基础上对黑色肤色、黄色肤色及白色肤色在YCbCr空间内进行肤色分割,达到较好的分割效果。关键词肤色;颜色空间;肤色分割;YCbCr空间肤色是人体表面最显著的特征之一,由于它对姿势、旋转、表情等变化不敏感,因此将人体的肤色特征应用于人脸检测与识别、表情识别、手势识别具有很大的优势,所以肤色特征是人脸识别、表情识别、与手势识别中最为常用的分割方法。然而,若要利用肤色进行分割,我们首先应该对肤色以及肤色的聚类情况进行分析。世界上的人种主要有三种,即尼格罗—澳大利亚人种(黑色皮肤),蒙古人种(黄色皮肤),欧罗巴人种(白色皮肤)。尽管人的肤色因人种的不同而不同,呈现出不同的颜色,但是有学者指出:排除亮度、周围环境等对肤色的影响后,皮肤的色调基本一致。本文对在不同环境下的不同肤色进行取样,然后分别在RGB、YCbCr颜色空间进行统计,从而对比分析肤色在各颜色空间聚类的情况。 1肤色在各颜色空间的聚类比较 1.1不同肤色在RGB和YCbCr颜色空间上的分布图1—图2给出了黄色、黑色和白色肤色分别在RGB、YCbcr空间的分布情况。由图1—图2可以得出,不同肤色在RGB、YCbCr空间的分布有如下特征: 1)不同肤色在不同颜色空间均分布在很小的范围内。 2)不同肤色在不同颜色空间内不是随机分布,而是在某固定区域呈聚类分布。 3)不同肤色在YCbCr空间内分布的聚类状态要好于在RGB空间内分布的聚类状态。 4)不同肤色在亮度上的差异远远高于在色度上的差异。 1.2肤色在不同亮度下的分布图3—图4给出了不同亮度下的同一肤色分别在RGB、YCbCr空间的分布情况。图(a)至图(d)的肤色来源于同一人在不同亮度下的照片。

空间聚类分析概念与算法

空间聚类概念空间聚类作为聚类分析的一个研究方向，是指将空间数据集中的对象分成由相似对象组成的类。同类中的对象间具有较高的相似度，而不同类中的对象间差异较大。作为一种无监督的学习方法，空间聚类不需要任何先验知识，比如预先定义的类或带类的标号等。由于空间聚类方法能根据空间对象的属性对空间对象进行分类划分，其已经被广泛应用在城市规划、环境监测、地震预报等领域，发挥着较大的作用。同时，空间聚类也一直都是空间数据挖掘研究领域中的一个重要研究分支。目前，己有许多文献资料提出了针对不同数据类型的多种空间聚类算法，一些著名的软件，如WEAK、SPSS、SAS等软件中已经集成了各种聚类分析软件包。 1 空间数据的复杂性空间聚类分析的对象是空间数据。由于空间数据具有空间实体的位置、大小、形状、方位及几何拓扑关系等信息，使得空间数据的存储结构和表现形式比传统事务型数据更为复杂，空间数据的复杂特性表现： (1)空间属性间的非线性关系。由于空问数据中蕴含着复杂的拓扑关系，因此，空间属性间呈现出一种非线性关系。这种非线性关系不仅是空间数据挖掘中需要进一步研究的问题，也是空问聚类所面临的难点之一。 (2)空间数据的尺度特征。空间数据的尺度特征足指在不同的层次上，空间数据所表现出来的特征和规律都不尽相同。虽然在空间信息的概化和细化过程中可以利用此特征发现整体和局部的不同特点，但对空间聚类任务来说，实际上是增加了空间聚类的难度。 (3) 间信息的模糊性。空间信息的模糊性足指各种类型的窄问信息中，包含大量的模糊信息，如空问位置、间关系的模糊性，这种特性最终会导致空间聚类结果的不确定性。 (4)空间数据的高维度。空问数据的高维度性是指空间数据的属性(包括空间属性和非空间属性)个数迅速增加，比如在遥感领域，获取的空间数据的维度已经快速增加到几十甚至上百个，这会给空间聚类的研究增加很大的困难。 2 空间聚类算法目前，研究人员已经对空间聚类问题进行了较为深入的研究，提出了多种算法。根据空间聚类采用的不同思想，空间聚类算法主要可归纳为以下几种：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及其它形式的聚类算法，如图l所示。 (1)基于划分的聚类基于划分的聚类方法是最早出现并被经常使用的经典聚类算法。其基本思想是：在给定的数据集随机抽取n个元组作为n个聚类的初始中心点，然后通过不断计算其它数据与这几个中心点的距离(比如欧几里得距离)，将每个元组划分到其距离最近的分组中，从而完成聚类的划分。由于基于划分的聚类方法比较容易理解，且易实现，目前其已被广泛的弓l入到空间聚类中，用于空间数据的分类。其中最为常用的几种算法是：k一平均(k-means)算法、kl中心点(k—medoids)算法和EM(expectation maximization)算法。k一平均算法’使

应用空间聚类进行点数据分布研究_林冬云

2006年　8月第42卷　第4期北京师范大学学报(自然科学版) Jour nal of Beijing N ormal U niver sity (N atural Science )A ug.2006 V ol.42　N o.4 应用空间聚类进行点数据分布研究* 林冬云1)　刘慧平1,2,3)? (1)北京师范大学地理学与遥感科学学院;2)北京师范大学遥感科学国家重点实验室; 3)北京师范大学环境遥感与数字城市北京市重点实验室:100875,北京) 摘要　空间数据挖掘是寻找大数据量空间分布的重要方法,应用地理信息系统(G IS )进行空间数据挖掘是目前进行海量数据分析的重要手段之一.应用空间聚类方法对北京市海淀区54325个企业点数据进行量化分析研究,通过空间位置聚类,进行属性指标量化,从而进行属性指标分层聚类,得到企业空间分布特征.研究表明,空间聚类方法是进行点数据空间分布研究的有效方法. 关键词　空间聚类;企业分布;地理信息系统;量化 *国家自然科学基金资助项目(40271035);国家“十五”科技攻关课题资助项目(2003BA808A16-6) ?通讯作者收稿日期:2005-11-23 随着数据获取和处理技术的迅速发展及数据库管理系统的广泛应用,人们积累的数据越来越多,但在激增的数据背后隐藏着许多重要的信息,由于缺乏有效的方法,导致了一种“数据爆炸但知识贫乏”的现象[1],面对这一挑战,数据挖掘(data mining ,DM )和知识发现(know ledge discovery in database s ,KDD )技术应运而生并得到迅速发展,它的出现为自动和智能地把海量的数据转化成为有用的信息和知识提供了手段. 作为DM 技术一个新的分支,空间DM 也称基于空间数据库的数据挖掘和知识发现(spatial data mining and know ledge disco very ),是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程[2]. 空间聚类方法是空间数据挖掘中的主要方法之一,是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域.聚类算法无需背景知识,能直接从空间数据库中发现有意义的空间聚类结构[3].在无先验知识的情况下,聚类分析技术是进行数据挖掘时的首选[4],因而运用空间数据聚类方法来处理海量数据,对于提取大型空间数据库中有用的信息和知识具有十分重要的现实意义. 目前,对于空间聚类的研究主要集中在算法研究和应用研究上,存在2种偏向,一是从事GIS 理论方法和技术工具研究的工作者大多根据空间对象的地理坐标进行聚类,即只考虑对象的空间邻近性,而不考虑对象属性特征的相似性[2,5];另一种是从事GIS 应用和地学研究的工作者,直接套用传统聚类分析方法,根据属性特征集进行分析,忽视了对象的空间邻近性[6]. 而空间对象本质上具有地理位置和属性特征双重含义,二者结合才能完整地描述空间特征和空间差异.将地理位置和属性特征纳入统一的空间距离测度和空间聚类分析系统,将会改善空间分析和空间DM 的信息质量[7-9] . 本文主要应用GIS 分析技术,采用空间DM 中的空间聚类方法,通过将空间位置与属性相结合的聚类方法,对北京市海淀区5万多个企事业单位的点分布数据进行分析,探讨对于属性是定性描述的点分布数据的量化方法. 1　研究区和数据来源海淀区是北京市重要近郊区,占地面积大,人口众多,交通发达,存在着大量的居民和村民混居现象,是中心城市自上而下的扩散能力最强、城乡一体化程度最高、城乡联系最密切的地区,也是大都市空间扩展的主要地区[10]. 研究使用的数据来源是2001年北京市企业数据的统计表,经数字化处理生成企业单位点位分布图,按照数据文件中企业注册地址信息,结合参考北京市电子地图、北京市街道胡同地图集、北京市地图、网上北京市地图以及有关企事业单位的网站,将海淀区共计54325条记录生成5万多个企业的点分布图. 2　研究方法应用GIS 提取企事业单位分布空间坐标,进行按位置距离聚类分析,获得位置聚类小区,然后进行属性指标的量化,应用聚类分析进行属性聚类,分析企事业