当前位置:文档之家› 不确定性空间数据挖掘算法模型

不确定性空间数据挖掘算法模型

不确定性空间数据挖掘算法模型
不确定性空间数据挖掘算法模型

第36卷第1期 中国矿业大学学报 Vol.36No.12007年1月 Journal of China University of Mining &Technology J an.2007

收稿日期:2005-08-28

基金项目:国家自然科学基金项目(60275021);中国博士后科学基金(20060390326)

作者简介:何彬彬(19722),男,湖南省邵阳市人,博士(博士后),从事空间数据库与数据挖掘、遥感信息处理方面的研究.E 2m ail :binbinhe @https://www.doczj.com/doc/cb18584381.html, T el :028*********

文章编号:100021964(2007)0120121205

不确定性空间数据挖掘算法模型

何彬彬1,方

涛2,郭达志3

(1.电子科技大学地表空间信息技术研究所,四川成都 610054;2.上海交通大学图像处理与模式识别研究所,上海 200030;3.中国矿业大学环境与测绘学院,江苏徐州 221008)

摘要:在分析空间数据和空间数据挖掘的不确定性基础上,针对传统空间数据挖掘的局限性,将空间数据的不确定性和空间数据挖掘的不确定性有机结合,以EM 算法和Apriori 算法为基础,建立了不确定性空间数据挖掘算法模型,包括不确定性空间数据聚类算法(UN EM )和不确定性空间数据关联规则挖掘模型(U SAR ).并以中国37个有代表性的大中城市的地理空间经济数据为例,进行实验验证,结果表明:采用不确定性空间数据挖掘算法模型比传统的空间数据挖掘方法得到的知识更为真实客观.

关键词:不确定性;空间数据挖掘;UN EM 算法;U SA R 模型;质量评价中图分类号:P 2;TP 391文献标识码:A

Uncertain Spatial Data Mining Algorit hms

H E Bin 2bin 1,FAN G Tao 2,GUO Da 2zhi 3

(1.Institute of Geo 2Spatial Information Science and Technology ,University of Electronic Science and Technology of China ,Chengdu ,Sichuan 610054,China ;2.Institute of Image Processing &Pattern Recognition ,Shanghai Jiao Tong University ,Shanghai ,200030,China ;3.School of Environment &Spatial Informatics ,

China University of Mining &Technology ,Xuzhou ,Jiangsu 221008,China )

Abstract :On t he basis of analyzing t he uncertainties of spatial data and spatial data mining (SDM ),in view of t he limit s of traditional spatial data mining ,t he uncertainties of spatial data and spatial data mining were p roperly combined.Based on EM algorit hm and Apriori algo 2rit hm ,t he uncertain spatial data mining algorit hms ,including uncertain spatial clustering algo 2rit hm (uncertain neighborhood expectatio n maximum ,UN EM )and uncertain spatial associa 2tion rules mining (U SAR )model were presented.Meanwhile ,t he experiment s concerned have been performed using t he geo 2spatial data from 37typified cites in China.The result s show t hat t he knowledge acquired t hrough t he uncertain spatial data mining algorit hms is more real and objective t han t hose t hrough t raditional spatial data mining met hods.

K ey w ords :uncertainty ;spatial data mining ;UN EM algorit hm ;U SAR model ;quality assess 2ment

空间数据挖掘(Spatial Data Mining ),是指从空间数据库(空间数据仓库)中提取隐含的、用户感兴趣的空间模式与规则、空间与非空间数据的普遍

关系及其他一些隐含在数据库中的普遍的数据特征的过程[122].随着空间数据获取手段的自动化程度的不断提高,空间数据库的数据呈指数级的增

中国矿业大学学报 第36卷

长,但专职处理空间数据的遥感和地理信息系统软件在分析功能上的不足,使得海量空间数据与有用知识获取之间存在尖锐的矛盾,致使“空间数据爆炸但知识贫乏”[3].因此,近几年空间数据挖掘已成为空间信息领域的一个重要研究热点,并取得了许多重要成果.目前对于空间数据挖掘的研究主要集中在空间数挖掘的原理及方法本身.而对其另一个重要方面-空间数据挖掘不确定性还少有报道.事实上,空间数据自身具有不确定性[426],空间数据挖掘过程中也会带来一系列的不确定性,这些不确定性在空间数据挖掘过程中会不断传播和积累,从而可能导致挖掘出来的知识有较大的误差甚至毫无意义.而传统的空间数据挖掘并未将这些特性考虑进去,并且一般认为挖掘出来的知识都是有用的和确定的,这显然是不科学和不妥当的.因此,研究空间数据挖掘的不确定性显得尤为重要.

1空间数据挖掘不确定性分析

空间数据挖掘过程可分为4个阶段:数据选取、数据预处理、数据挖掘、知识表示与评价.同样,在空间数据挖掘的过程中也存在相当数量的不确定性积累和传播(图1),而且比空间数据中的不确定性更为复杂.空间数据选取阶段的不确定性主要是指根据空间数据挖掘任务的要求,主观选择目标数据过程中带来的不确定性,包括哪些数据应该被选择、多少数据量才足够等.数据选取阶段的不确定性主要受应用数据挖掘技术想要解决问题的定义和参与人员的知识结构影响.空间数据预处理主要包括数据清理、数据变换和数据归约.数据清理主要是试图填充空缺的值、识别孤立点、消除噪声和纠正数据中的不确定性;数据变换是将数据转换成适合于挖掘的形式,主要包括平滑、聚集和数据概化(用高层次新的属性归并属性集,以帮助挖掘过程).在这一阶段中,一方面处理不确定性,另一方面在处理过程中又可能带来新的不确定性.数据挖掘本身带来的不确定性主要是指由于挖掘算法的局限性而造成挖掘结果与真实情况的不完全一致,这也是造成数据挖掘不确定性的重要原因之一.每一种数据挖掘算法都有其优缺点和实用范围,而且经典的数据挖掘算法一般并没有考虑算法的不确定性和数据的不确定性.知识表示中的不确定性主要是指知识本身隐含不确定性,包括随机性、模糊性等.同一知识可以用多种方法表示.有些知识用这种方法表示比较好,有些则可能采用另一种表示方法比较合适.空间数据挖掘所获得的知识,大都是经过归纳和抽象的定性知识,或是定性和定量相结合的知识.对这些知识的最好表示方法就是自然语言,至少在知识表示方法中含有语言值,即用语言值表达其中的定性概念

.

图1空间数据挖掘的不确定性来源及其传播

Fig.1Uncertainty origins and propagation in

spatial data mining

2不确定性空间数据挖掘算法模型

传统的空间数据挖掘方法是:首先将空间数据组织成关系表的形式,每一个元组(记录)表达一个空间对象,每个元组包含空间对象的多个属性(一般分为条件属性和决策属性),然后将表中连续型空间属性进行离散化,再运用经典数据挖掘算法(如C5,Apriori算法)提取规则.但是,该方法存在4个明显的缺陷:1)用于空间数据挖掘的源数据往往带有不同程度的不确定性,而传统方法认为源数据是确定的,缺乏对原始空间数据真实性的合理考虑;2)空间数据挖掘过程中尤其是连续型数据离散化过程中会带来大量的不确定性,从而可能导致挖掘出来的知识存在误差甚至毫无意义,而传统方法并没有采取有效方法对其进行不确定性处理;

3)空间数据往往趋于高度空间自相关,而传统方法是基于采样独立性的假设的,缺乏对空间自相关的度量和考虑;4)缺乏对空间数据挖掘结果的质量评价.针对以上4个主要问题,以EM算法和Ap riori算法为基础,构建了不确定性空间数据挖掘算法模型,主要包括:空间数据不确定性的Monte Carlo模拟、基于不确定性空间数据空间自相关度量、不确定性空间数据聚类算法和不确定性空间数据关联规则挖掘模型.

2.1空间数据不确定性的Monte C arlo模拟

根据不同空间数据的不确定性(误差)分布采用Monte Carlo模拟法进行不确定性模拟.本文中取用2002年中国37个主要大中城市的地理空间经济数据的位置数据和若干属性数据(距海洋的距

221

第1期 何彬彬等:不确定性空间数据挖掘算法模型

离、人均GDP 、人均年可支配收入和商品房均价),采用Monte Carlo 模拟法对它们进行不确定性模拟,根据不同空间对象的位置数据和不同属性数据的均值和中误差,分别得到不同空间对象的位置数据和不同属性数据的1000组模拟数据.对于位置数据,采用圆形正态误差模型.对于空间对象的各属性数据的误差,则用一维正态分布来估计.其算法如下:具体算法如下:

1)确定每个待输入空间数据集的不确定性类型(位置数据的圆形正态模型,属性数据的一维正态模型);

2)取用依空间数据集分布的随机采样来代替原输入空间数据;

3)对每一次实现,存储其结果;

4)随机抽取1000组实验数据作为样本数据.这里,随机数发生器采用普雷斯等人(1996)推荐的随机数发生器ran2[7],随机向量的抽样方法采用著名的博克斯-马勒(Box 2Muller )方法[7].2.2基于不确定性空间数据的空间自相关度量

几乎所有空间数据都具有空间自相关性,因此在处理地理区域或地带的离散数据时须考虑空间数据的空间自相关性.空间自相关矩阵如式(1)所示.

根据邻接或距离标准,当空间对象i 和空间对象j 相邻时,空间权重矩阵的元素w ij 为1,其他情况为0.

w 11w 12…w 1

n

w 21

w 22

…w 2n

…w m 1

w m 2

…w mn

,(1)

式中:m 为空间对象m ;n 为空间对象n ;w mn 为空间对象m 和n 的空间权重元素.

本文借用Voronoi 和Delaunay 图,结合距离标准来构建空间权重矩阵.普通的距离计算技术一般隐含地假设空间数据的位置是精确的.考虑到空间数据的不确定性,采用3种方法计算空间数据间空间自相关矩阵:中心法、最小法和最大法[8].假设区域S 中有n 个位置不确定的点,第i 个点P i 的误差带用一个圆形Q i 表示.具体算法如下:

输入:区域s 中的一组点的误差带Q ={Q 1,Q 2,…,Q n }和邻域距离d

输出:区域s 中一组点的邻域图和空间自相关距阵

步骤1:构造点集P 的Voronoi 多边形

步骤2:对所有相邻的Voronoi 多边形进行如

下运算

步骤2.1:计算d center (C i ,C j ),d max (Q i ,Q j ),

d min (Q i ,Q j )

步骤2.2:如果d

和P j ,w ij 为1;否则w ij 为0

其中,d n 为邻域距离;d center (C i ,C j )表示相邻误差带(Q i ,Q j )质心之间的距离;d max (Q i ,Q j )表示相邻误差带(Q i ,Q j )内空间数据之间的最大距离;d min (Q i ,Q j )表示相邻误差带(Q i ,Q j )内空间数据之间的最小距离.

2.3

不确定性空间数据聚类算法

传统的空间数据聚类算法是利用经典的聚类算法(如K 2means ,K 2medoid )进行聚类.这种方法由于并未考虑空间数据的空间约束,其结果经常在地理位置上很混乱.此外,这种聚类方法还有一个共同的缺点是将空间对象集合划分为互不相交的子集,其中每个空间对象最多只属于一个聚类.但是当空间对象与2个聚类之间的距离相等,或者空间对象与2个聚类区域同时相交时,强制聚类之间不能相交的约束就不符合实际.鉴于此,以EM 算法为基础,顾及空间数据的不确定性和空间聚类的模糊性以及空间数据的空间自相关性,构建基于不确定性的空间聚类算法(UN EM ),主要包括:空间数据不确定性的Monte Carlo 模拟(见2.1节)、空间数据标准化、空间权重矩阵构建(见2.2节)和顾及空间自相关的EM 算法改进[9].其中,空间数据标准化是为了避免对各度量单位选择的依赖.2.4不确定性空间数据关联规则挖掘模型

在空间数据挖掘过程中,一方面须分析挖掘过程中存在的不确定性,并采用有效方法处理其不确定性;另一方面,又不可能消除所有的不确定性,因为空间数据挖掘算法本身和不确定性处理过程中均会带来不同程度的新的不确定性.所以,对空间数据挖掘进行质量评价是十分必要,它可以帮助我们更客观地度量空间数据挖掘的真实性.本文结合传统数据挖掘质量评价方法[10],考虑空间数据不确定性特点的基础上,初步建立了一套适合不确定性空间数据关联规则挖掘的质量评价指标.包括覆盖度、支持度、可信度、作用度、杠杆作用度和兴趣度[11]以及它们的均值(mean )和方差(variance ).

关联规则出现的概率(Probability ):考虑空间数据的不确定性基础上,如果从一组原始空间数据集中依空间数据的不确定性分布模拟出n 组样本进行实验,出现同一关联规则的个数为m ,则该关联规则出现的概率为

3

21

中国矿业大学学报 第36卷

Probability=m/n.(2)

关联规则质量评价指标的均值(mean)和方

差(variance):根据m个同一规则的同一质量评价

指标的不同取值计算其相应的均值和方差,则其空

间质量评价指标的表示形式为Q(Probability,

mean,variance)

mean=1

m ∑m

i=1

X i,(3)

式中 X i为关联规则的质量评价指标.

variance=1

m-1∑m

i=1

(X i-mean)2.(4)

同时,结合上述的关联规则质量评价指标,以Ap riori算法为基础,采用2.3节介绍的不确定性空间聚类算法进行连续型空间数据离散化,建立了

不确定性空间数据关联规则挖掘模型(见图2)

.

图2不确定性空间数据关联规则挖掘模型

Fig.2Uncertain spatial data association

rules mining model

3实例分析

以2002年中国37个主要大中城市地理空间经济数据为例,进行基于UN EM算法的空间数据聚类和基于U SAR模型的空间数据关联规则挖掘.具体步骤如下:1)根据地理空间经济数据的不确定性类型进行不确定性的Monte Carlo模拟(2.1节);2)空间属性数据标准化;3)空间自相关矩阵计算(2.2节);4)不确定性空间数据聚类(2.3节);5)不确定性空间数据关联规则挖掘及质量评价(2.4节).分6个类别进行聚类,实验结果如图3和图4所示,图4中显示顾及空间数据不确定性、空间自相关性和分类模糊性的UN EM聚类结果与传统的EM聚类(图3)不同.同时,采用以"商品房均价"作为规则后件,其余属性作为规则前件,最小支持度采用10%,最小可信度采用50%,进行关联规则挖掘,实验结果如图4和表2.图5显示所挖掘的关联规则质量评价指标均较好.从表2中可以看出,不确定性空间数据关联规则挖掘模型得到的规则/知识是不确定的,但通过质量评价指标可以较客观的度量它

.

图3中国37个大中城市2002年

地理空间经济数据EM聚类结果

Fig.3EM clustering results of thirty2seven cities’geographical economy data in

2002

图4中国37个大中城市2002年

地理空间经济数据UN EM聚类结果

Fig.4UN EM clustering results of thirty2seven cities’geographical economy data in2002

表1不确定空间数据关联规则挖掘结果

T able1The results of uncertain spatial d ata association rules mining

关联规则概率支持度可信度覆盖度作用度杠杆作用度兴趣度

地理位置位于“华东南”∧距海洋距离“很近”∧人

均年可支配收入“较高”→商品房均价“中高”0.800.081

0.000

0.938

0.016

0.088

0.000

8.672

1.337

0.928

0.016

0.856

0.016

地理位置位于“华东南”∧距海洋距离“很近”∧人

均年可支配收入“较高”→商品房均价“较高”0.800.081

0.000

1.000

0.000

0.081

0.000

7.708

9.507

0.924

0.018

0.919

0.000

地理位置位于“东北”∧距海洋距离“较远”∧人

均年可支配收入“很低”→商品房均价“很低”0.700.081

0.000

1.000

0.000

0.081

0.000

5.304

2.897

0.984

0.000

0.919

0.000

地理位置位于“华东北”∧距海洋距离“很近”∧人

均GDP“中高”→商品房均价“中低”0.620.081

0.000

0.750

0.000

0.108

0.000

3.251

0.253

0.725

0.000

0.669

0.000

地理位置位于“华中”∧人均GDP“较低”∧人均年

可支配收入“较低”→商品房均价“较低”0.300.097

0.000

0.982

0.004

0.098

0.000

2.917

0.344

0.948

0.004

0.886

0.004

地理位置位于“华中”∧人均GDP“中低”∧人均年可

支配收入“较低”→商品房均价“较低”0.280.081

0.000

1.000

0.000

0.081

0.000

2.623

0.056

0.964

0.000

0.919

0.000

421

第1期 何彬彬等:不确定性空间数据挖掘算法模型 续表

关联规则

概率

支持度

可信度

覆盖度

作用度

杠杆作用度

兴趣度

距海洋距离“很近”∧人均GDP “中高”∧人

均年可支配收入“中低”→商品房均价“中低”0.240.090

0.0000.9790.0050.0920.000 4.0110.0970.9570.0050.8890.005距海洋距离“较远”∧人均GDP “很低”∧人均年可支配收入“很低”→商品房均价“很低”

0.18

0.0810.000

0.9720.007

0.0840.000

5.1231.726

0.9830.000

0.8910.

007

图5不确定性空间数据关联规则挖掘质量评价指标变化图

Fig.5

Quality assessment indexes variation diagram of uncertain spatial data association rules mining

4结论

建立的不确定性空间数据挖掘算法模型,经实验验证结果表明:采用不确定性空间数据挖掘算法模型比传统的空间数据挖掘方法得到的知识更为真实客观.参考文献:

[1]

MILL ER H ,HAN J.G eographic data mining and knowledge discovery[M ].London :Taylor &Fran 2cis ,2001.[2]邸凯昌.空间数据发掘与知识发现[M ].武汉:武汉大学出版社,2000.

[3]

李德仁,王树良,李德毅,等.论空间数据挖掘与知识发现的理论与方法[J ].武汉大学学报:信息科学版,

2002,27(3):2212233.

L I De 2ren ,WAN G Shu 2liang ,L I De 2yi ,et al.Theo 2ries and technologies of spatial data knowledge dis 2covery [J ].Geomatics and Information Science of Wuhan University ,2002,27(3):2212233.

[4]

郭达志,胡召玲,陈云浩.GIS 中空间对象的不确定性研究[J ].中国矿业大学学报,2000,29(1):20224.

GUO Da 2zhi ,HU Zhao 2ling ,CH EN Yun 2hao.Study on uncertainties of Spatial Objects in GIS[J ].Journal of China University of Mining &Technology ,2000,29(1):20224.

[5]

史文中,王树良.GIS 中属性不确定性的处理方法及其发展[J ].遥感学报,2002,6(5):3922399.

SHI Wen 2zhong ,WAN G Shu 2liang.Further devel 2opment of theories and methods on attribute uncer 2tainty in GIS[J ].Journal of Remote Sensing ,2002,

6(5):3922399.[6]

邬伦,于海龙,高振纪,等.GIS 不确定性框架体系

与数据不确定性研究方法[J ].地理学与国土研究,

2002,18(4):125.

WU L un ,YU Hai 2long ,GAO Zhen 2ji ,et al.The f rame of GIS uncertainty and methods of GIS[J ].Da 2ta Uncertainty Geography and Territorial Research ,2002,18(4):125.[7]徐利治.现代数学手册:随机数学卷[M ].武汉:华中科技大学出版社,2001.

[8]

SADA HIRO Y.Cluster detection in uncertain point distributions :a comparison of four methods [J ].Computers ,Environment and Urban Systems ,2003,27:33252.

[9]

何彬彬,方涛,郭达志.基于不确定性的空间聚类

[J ].计算机科学,2004,31(11):1962198.

H E Bin 2bin ,FAN G Tao ,GUO Da 2zhi.Uncertainty 2based clustering method for spatial data mining [J ].Computer Science ,2004,31(11):1962198.[10]

VAZIR GIANNIS M ,HAL KIDI M ,GUNOPULOS D.Uncertainty handling and quality assessment in data mining[M ].London :Springer 2Verlag ,2003.

[11]

H E B B ,FAN G T ,GUO D Z.Quality assessment and uncertainty handling in the spatial data mining processes [C ]//Proceedings of 12th International Conference on G eoinformatics.Sweden :Gavle Uni 2versity Press ,2004:2032210.

(责任编辑姚志昌)

5

21

空间数据挖掘工具浅谈_汤海鹏

第28卷第3期2005年6月 测绘与空间地理信息 G E O M A T I C S &S P A T I A LI N F O R M A T I O NT E C H N O L O G Y V o l .28,N o .3 J u n .,2005 收稿日期:2004-09-14 基金项目:国家重点基础研究发展规划(973)资助项目(2001C B 309404) 作者简介:汤海鹏(1979-),男,湖南沅江人,本科,主要从事信息化管理和信息化建设等方面的研究。 空间数据挖掘工具浅谈 汤海鹏1 ,毛克彪 2,3 ,覃志豪2,吴 毅 4 (1.公安部出入境管理局技术处,北京100741;2.中国农业科学院自然资源与农业区划研究所农业遥感实验室, 北京100081;3.中国科学院遥感所,北京100101;4.黑龙江乌苏里江制药有限公司,黑龙江哈尔滨150060) 摘要:数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以 用来做出预测。空间数据挖掘有十分广阔的应用范围和市场前景,目前已出现大量的数据挖掘工具用于企业决策、科学分析等各个领域。文中对2个数据挖掘工具进行讨论,介绍它们的功能、所使用的技术以及如何使用它们来进行数据挖掘。 关键词:数据挖掘;空间数据挖掘;数据立方体;知识库引擎 中图分类号:P 208 文献标识码:A 文章编号:1672-5867(2005)03-0004-02 AS u r v e y o f D a t a Mi n i n g T o o l s T A N GH a i -p e n g 1 ,M A OK e -b i a o 2,3 ,Q I NZ h i -h a o 2 ,W UY i 4 (1.B u r e a uo f E x i t a n dE n t r y A d m i n i s t r a t i o n ,M i n i s t r y o f P u b l i c S e c u r i t y ,B e i j i n g 100741,C h i n a ;2.T h e K e y L a b o r a t o r y o f R e m o t e S e n s i n g a n d D i g i t a l A g r i c u l t u r e ,C h i n a A c a d e m y o f A g r i c u l t u r e R e m o t e S e n s i n g L a b o r a t o r y ,B e i j i n g 100081,C h i n a ; 3.I n s t i t u t eo f R e m o t e S e n s i n g A p p l i c a t i o n s ,C h i n e s e A c a d e m y o f S c i e n c e s ,B e i j i n g 100101,C h i n a ; 4.H e i l o n g j i a n g Wu s u l i j i a n g P h a r m a c e u t i c a l C o .L t d .,H a r b i n 150060,C h i n a ) A b s t r a c t : B e c a u s e o f c o m m e r c i a l d e m a n d s a n dr e s e a r c hi n t e r e s t ,a l l k i n d s o f s p a t i a l d a t a m i n i n g s o f t w a r e t o o l s e m e r g e .I n o r d e r t o g e t u s e o f t h e d a t a m i n i n g t o o l s ,t w o o f t h e ma r e i n t r o d u c e d i n t h i s p a p e r a n d m a k e p r o s p e c t o f i n t e g r a t i o n o f G I S ,R S ,G P S a n d d a t a m i n -i n g .K e yw o r d s :d a t a m i n i n g ;s p a t i a l d a t a m i n i n g ;d a t a c u b e ;d a t a b a s e e n g i n e 0 引 言 随着数据获取手段(特别是对地观测技术)及数据库 技术的快速发展,科研机构、政府部门在过去的若干年里都积累了大量的数据,而且,目前这些数据仍保持迅猛的增长势头。如此大量的数据已远远超过传统的人工处理能力,怎样从大量数据中自动、快速、有效地提取模式和发现知识显得越来越重要。数据挖掘与知识发现作为一个新的研究领域和新的技术正方兴未艾,用于从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式[1~2],很好地满足了海量数据处理的需要。 具体应用中,数据挖掘工具很多。它们在功能和方法等方面差别很大。如何选择适合具体挖掘需求的工具,是进行挖掘工作必须考察的前提。选择某一工具时,应考虑数据类型,主要是考察工具能处理的数据:①关系 数据库的数据。包括数据仓库数据、文本文档、空间数据、 多媒体数据、W e b 数据等;②功能和方法。数据挖掘功能是数据挖掘工具(或系统)的核心,一些数据挖掘工具仅提供一种功能(如分类),另一些工具可能支持另外的挖掘功能(如描述、关联、分类、预测和聚类等);③其他考虑的方面如:系统问题、数据源、可伸缩性、可视化、数据挖掘查询语言和图形用户接口、工具和数据库或数据仓库系统等。 在众多的数据中,有近80%的数据可以通过空间关系表达。现在,通过卫星扫描地球,每天都能获得大量的关于地表的遥感图像。要从大量的数据中判读出每一个图片所潜藏的信息,就必然要用到数据挖掘技术。本文将通过介绍专业的航空遥感图像处理系统E r d a s 和D B -M i n e r 来阐述处理空间数据和关系数据的这一过程及这2种软件的特点。

不确定性数据管理的要求与挑战

专题 6无所不在 近几十年来,数据管理技术发展迅猛,在 国民经济建设中起到了突出作用。以Oracle、 DB2、SQL Server等为代表的大型关系数据 库管理系统(Relational Database Management System,RDBMS)更是诸多大型信息管理系 统、客户关系管理软件不可或缺的核心部分。 同时,以可扩展标记语言(Extensible Mar k up Language,XML)为代表的半结构化数据管理 技术也在数据交换和缺乏严格结构的数据管理 方面占据一席之地。上述技术均对数据质量、 待处理数据的准确性要求非常高。当原始数据 的质量不高时,需要先经过预处理过程提升数 据质量。以部门人事管理系统为例,员工的个 人资料、薪酬待遇和日常考核等信息必须准 确。但在诸如经济、军事和电信等领域,数据 的不确定性普遍存在,其存在性未知而且各属 性值存在误差。尽管数据预处理能够提升原始 数据集合的质量,但也可能会丧失原始数据集 合的部分性质,导致无法返回高质量的查询结 果[1]。典型的应用背景如下。 传感器网络与射频识别电子标签 传感器网络(Sensor Networ k)[2]与无线 射频识别(Radio Frequency Identification, RFID)[3]是两类新兴的数据收集和传输技术, 在工业、军事等领域中有着重要应用。传感器 网络中分布着众多低成本的传感器节点,相 互之间以无线网络方式通讯,可用来分析处理 数据;无线射频识别利用它的阅读器以非接 触方式读取附近的无线射频识别标签(RFID tag),改变了传统的基于条形码的识别方式。 困扰这两类应用的难题就是数据质量问题。传 感器节点体积小、功耗低、主要使用低成本电 子元器件,因而采集到的数据精度不高;在实 用应用中,无线射频识别阅读器的误读率高达 30%~40%[4]。另外,复杂多变的工作环境也 会降低原始数据的质量。在无线网络环境中, 数据传输的准确性受带宽、传输延时、能量等 因素影响,并不稳定。当查询任务需同时考虑 来自多个传感器或无线射频识别阅读器的数据 时,数据可能不一致,从而增加了数据处理的 难度。 互联网数据 互联网上的信息资源极为丰富,而且这些 信息一直在不断地膨胀,乃至于有人将互联网 称为史上最大规模的数据库。根据2009年1月 中国互联网信息中心(China Internet Networ k Information Center,CNNIC)的调查报告,截 至2008年底,中国网站总数为287.8万个,全 国网页总数约为160.9亿,较2007年增长90%, 网页字数为460,217,386,099KB。但是互联网数 据的质量却不尽如人意。作为一个典型的分散 管理系统,互联网中并不存在一个统一的信息不确定性数据管理的 要求与挑战 李建中1于戈2周傲英3 1哈尔滨工业大学 2东北大学 3华东师范大学 关键词:不确定性数据可能世界模型

空间不确定性研究综述

空间不确定性研究综述 摘要:介绍了空间不确定性的概念,对空间不确定性的研究内容进行阐述说明并归纳总结其研究方法,对不确定性研究的发展趋势进行分析。 关键词:空间数据;不确定性;GIS;研究 1 空间不确定性问题概述 空间数据质量的不确定性研究伴随着GIS 的问世而开始,由于人类测量与表达能力的局限性,描述数据的模型只能是对客观实体的一种近似,此外各种空间操作、处理等又会引入新的误差和不确定性,可以说误差的存在是各类观测与分析数据的基本特征。这往往导致空间特征和空间过程很难被准确确定,从而直接关系到对GIS产品的质量控制,影响了空间数据的反演、多尺度和多角度数据分析和应用建模的效果,影响决策结果的质量。因此,在GIS初步形成和产品化时,就提出了空间数据的不确定性问题,且被国际上列为地理信息科学界重大基础理论研究课题之一。 在不确定性理论提出的早期,不确定性与误差是近义词,二者在多数情况下可以相互通用。误差指统计意义下的偏差或错误,而数据不确定性主要指数据“真实值”不能被肯定的程度。从这个意义看,数据不确定性可以看作是一种更广义与抽象的误差,它既包含随机误差,也包含系统误差和粗差;既包含可度量的误差,又包含不可度量的误差以及数值上和概念上的误差。 不确定性可划分为四类,分别是随机性、模糊性、未确定性和灰色性。随机性的特点是可重复观察,在观察之前知道所有可能的结果,但不知道到底哪一种结果会出现。模糊性是指事物的概念本身是模糊的,即一个对象是否符合这个概念难以确定。就像“一粒”和“一堆”是有区别的两个概念,它们的区别是渐变的,两者之间并不存在明确的界限,这种不确定性就是模糊性。未确定性是指纯主观上的、认识上的不确定性。灰色性是指由于事物的复杂性和噪声干扰,人们只能把握部分信息或信息的大致范围,而不知其全部信息或确切的信息量。 2 不确定性的研究内容 空间数据不确定性的产生来源十分复杂,空间对象本身可能具有不稳定性,在空间数据的获取、存储、传输、分析等过程中会引入更多复杂的不确定性。如在数据获取过程中,仪器精度限制、测量方案完善程度、环境的复杂性、观测员的能力水平、空间分析方法与模型表达的多样性等均会造成空间数据的不确定性。 根据实际应用中的需要,对地理空间数据不确定性的研究又可细分为:位置不确定性、属性不确定性、时域不确定性、逻辑一致性、数据完整性、数据不确定性的传播以及不确定性的可视化表示等[1]。地理空间数据不确定性研究的核心就是建立一套不确定性分析和处理的理论体系和方法体系。 2.1位置不确定性 位置不确定性指表示空间实体的真实位置与实际位置之间的差别,空间实体的位置通常以二维或三维坐标表示,相应的,位置不确定性常用坐标的精度来表示。近年来,空间数据位置不确定性成了研究热点,主要集中在数据源不确定性

第三章 空间数据采集与处理练习资料

一、单选题 1、对于离散空间最佳的内插方法 是: A.整体内插法 B.局部内插法 C.移动拟合法 D.邻近元法 2、下列能进行地图数字化的设备 是: A.打印机 B.手扶跟踪数字化仪 C.主 机 D.硬盘 3、有关数据处理的叙述错误的 是: A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法 是: A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是: A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中,手工方式主要是用于录入: A.属性数据 B.地图数据 C.影象数 据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行: A.数据编辑 B.数据变换 C.数据更 新 D.数据匹配 8、下列属于地图投影变换方法的 是: A.正解变换 B.平移变换 C.空间变 换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是: A.压缩软件 B.消冗处理 C.特征点筛选 法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式: A. 手工方式 B.扫描方式 C.投影方 式 D.数据通讯方式 12、以下不属于地图投影变换方法的是: A. 正解变换 B.平移变换 C.数值变 换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是: A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是: A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是: A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

空间数据基本理论

1.空间地理数据的基本特征 要完整地描述空间实体或现象的状态,一般需要同时有空间数据和属性数据。如果要描述空间实体或的变化,则还需记录空间实体或现象在某一个时间的状态。所以,一般认为空间数据具有三个基本特征: ⑴空间特征表示现象的空间位置或现在所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示。 ⑵属性特征表示现象的特征,例如变量、分类、数量特征和名称等等。 ⑶时间特征指现象或物体随时间的变化。 位置数据和属性数据相对于时间来说,常常呈相互独立的变化,即在不同的时间,空间位置不变,但是属性类型可能已经发生变化,或者相反。因此,空间数据的管理是十分复杂的。 有效的空间数据管理要求位置数据和非位置数据互相作为单独的变量存放,并分别采用不同的软件来处理这两类数据。这种数据组织方法,对于随时间而变化的数据,具有更大的灵活性。 2.如何在计算机内部用数字形式描述客观事物或现象 对地理信息进行数字化描述,就是要使计算机能够识别地理事物的形状,为此,必须精确地指出空间模式如何处理,如何显示等。在计算机内描述空间实体有两种形式:显式描述和隐式描述。在计算机中的显式表示,就是栅格中的一系列像元。隐式表示是由一系列定义了始点和终点的线及某种连接关系来描述。 计算机对地理实体的显式描述也称栅格数据结构,计算机对地理实体的隐式描述也称矢量数据结构。栅格和矢量结构是计算机描述空间实体的两种最基本的方式。 在栅格数据结构中,整个地理空间被规则地分为一个个小块(通常为正方形),地理实体的位置是由占据小块的横排与竖列的位置决定,小块的位置则由其横排竖列的数码决定,每个地理实体的形态是由栅格或网格中的一组点来构成。

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

不确定性数据的分类方法研究综述

第19卷第4期重庆科技学院学报(自然科学版)2017年8月不确定性数据的分类方法研究综述 沈杰许高建杨阳李绍稳 (安徽农业大学信息与计算机学院,合肥230036) 摘要:传统的数据挖掘分类方法能够成功地应用于确定性数据分类,但却无法满足绝大多数领域中复杂的不确定性数据的分类需求,由此出现了一系列针对不确定性数据的分类方法。通过大量研究,目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展,如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。 关键词:不确定性数据;分类;支持向量机;朴素贝叶斯;决策树 中图分类号:TP301 文献标识码:A文章编号=1673 -1980(2017)04 -0096 -04 面临海量的、复杂的不确定性数据,针对不确定 性数据的数据挖掘成为智能分析数据并获取知识的 重要手段,分类算法成为其主要的研究方向之一。2006年,第六届ffiEE数据挖掘国际会议(I C D M)评 选了最具影响的10个数据挖掘算法,其中分类算法 占据了 6 个:k - N N、Naive Bayes、C4. 5、C A R T、S V M、AdaB〇〇s t[1]。分类的任务就是通过分析来建 立区分对象的分类模型,即分类器。传统的分类算 法通常将精确数据作为研究背景,只考虑了精准数 据的输入和分类,因而不能直接应用于不确定性数 据分类,如支持向量机(S V M)、决策树、朴素贝叶斯 算法等。针对此现象,基于这些算法的原有经典模 式加以改进,加入不确定性数据分析,可使得不确定 知识数据挖掘技术更加成熟。 1不确定性数据 1.1不确定性数据的产生 数据的不确定性源于数据本身。数据不确定性 分以下几种情况:采集数据时出现缺省值、干扰值 等;在实验时受周围环境的影响而导致数据不确定; 在数据传输过程中的失真导致不确定性。 1.2不确定性数据的表示 不确定性一般可分为存在(元组级)不确定性 和值(属性级)不确定性[2]。其中,存在(元组级)不 确定性是指一个对象即有出现的可能性,也有不出 现的可能,如某天可能会下雨或者可能不会下雨;而值(属性级)不确定性是指这个对象取值的不确定 性。在高维空间中,确定性数据对象表现为某些具 体的点,而不确定数据对象的表现形式为满足某种 分布的一个范围。 2常见的不确定性数据分类方法 2.1支持向量机算法 Vapnik等人提出的传统支持向量机是一种基 于统计学理论、以结构风险最小化为原则的判别式 分类器[>5]。其基本思想是,在《维数据空间中寻 找一个超平面,可以极大化地将空间属于不同类别 的样本点分开,对于精确的小样本数据有很好的分 类效果。孙喜晨等人对不确定数据作了预处理,在 属性均值聚类(A M C)与支持向量机(S V M)的基础 上,提出基于(属性)聚类的属性支持向量机(A M C -A S V M)算法[6]。该算法对样本进行属性均值聚 类,然后将各个聚类中心及其属性作为新的样本点 来训练,进而得到分类器[7]。但该方法本质上是将 数据的不确定性转化为确定性来处理,对不确定性 考虑得不够充分。 Jianqiang Y a n g等人在S V M中引入多维高斯分 布模型来描述不确定数据的,提出U S V C、A U S V C 及M P S V C支持向量机分类算法[8]。U S V C的原始 问题通过引入约束得到,将机会约束的规划问题转 化为二次规划问题来求解。而A U S V C以及M P S V C 是由U S V C算法改进而来,即通过调整U S V C中的 收稿日期=2017 -03 -23 基金项目:国家自然科学基金项目“农业领域(茶学)云本体建模与方法研究”(31271615)作者简介:沈杰(1990 —),女,合肥人,在读硕士研究生,研究方向为人工智能和数据挖掘? 96 ?

地理不确定性研究

空间不确定性研究进展 张勇 (浙江师范大学地理与环境科学学院,浙江金华321004) 摘要:GIS随着计算机技术的发展而出现,并正处于激烈的演化和发展状态。文中介绍了GIS现状及发展趋势,以及由错误导致的拓扑关系的不确定性和GIS(空间数据、空间推理、空间查询、空间查询语言)的不确定性、拓扑关系理论的发展、GIS在21世纪的发展等问题。 关键词:地理信息系统(GIS);空间数据;拓扑学关系;不确定性;不一致性Advance of study in spatial uncertainty Zhang Yong ( Zhejiang Normal University College of environment and sciences , Zhejiang Jinhua 321004) Abstract: The emergence of GIS keep pace with the development of computer technology,and be in the state of evolution and intense development. This paper describes the current situation and development of GIS trend, as well as the uncertainty caused by the error of topological relations and GIS (spatial data, spatial reasoning, spatial query, spatial query language) of uncertainty, development of topological relation theory, development and other issues of GIS in the 21 century. 1绪论 地理信息系统(GIS)是以采集、存储、管理、分析和描述整个和部分地球表面与空间和地理分布有关的空间信息系统。GIS在采集和处理、分析中出现的数据范围很广,包括位置数据、属性数据、时域数据、逻辑关系等。由于现实世界的复杂性和模糊性、人类表达能力的局限性,数据不可避免地含有误差,研究GIS的误差理论,直接关系到GIS产品的质量控制。因此在GIS初步形成和产品化时,提出了数据质量中空间数据的不确定性理论,并被国际上列为20世纪90年代的重点基础理论课题之一。 所谓不确定性是指一种广义的误差,它包含数值和概念的误差,也包含可

探索不确定性与遥感数据论文 英译汉

Exploring uncertainty in remotely sensed data with parallel coordinate plots Yong Ge , Sanping Li , V. Chris Lakhan , Arko Lucieer Abstract The existence of uncertainty in classified remotely sensed data necessitates the application of enhanced techniques for identifying and visualizing the various degrees of uncertainty. This paper, therefore, applies the multidimensional graphical data analysis technique of parallel coordinate plots (PCP) to visualize the uncertainty in Landsat Thematic Mapper (TM) data classified by the Maximum Likelihood Classifier (MLC) and Fuzzy C-Means (FCM). The Landsat TM data are from the Yellow River Delta, Shandong Province, China. Image classification with MLC and FCM provides the probability vector and fuzzy membership vector of each pixel. Based on these vectors, the Shannon’s entropy (S.E.) of each pixel is calculated. PCPs are then produced for each classification output. The PCP axes denote the posterior probability vector and fuzzy membership vector and two additional axes represent S.E. and the associated degree of uncertainty. The PCPs highlight the distribution of probability values of different land cover types for each pixel, and also reflect the status of pixels with different degrees of uncertainty. Brushing functionality is then added to PCP visualization in order to highlight selected pixels of interest. This not only reduces the visualization uncertainty, but also provides invaluable information on the positional and spectral characteristics of targeted pixels. 1. Introduction A major problem that needs to be addressed in remote sensing is the analysis, identification and visualization of the uncertainties arising from the classification of remotely sensed data with classifiers such as the Maximum Likelihood Classifier (MLC) and Fuzzy C-Means (FCM). While the estimation and mapping of uncertainty has been discussed by several authors (for example, Shi and Ehlers, 1996; van der Wel et al., 1998; Dungan et al., 2002; Foody and Atkinson, 2002; Lucieer and Kraak, 2004; Ibrahim et al., 2005; Ge and Li, 2008a), very little research has been done on identifying, targeting and visualizing pixels with different degrees of uncertainty. This paper, therefore, applies parallel coordinate plots (PCP) (Inselberg, 1985, 2009; Inselberg and Dimsdale, 1990) to visualize the uncertainty in sample data and classified data with MLC and Fuzzy C-Means. A PCP is a multivariate visualization tool that plots multiple attributes on the X-axis against their values on the Y-axis and has been widely applied to data mining and

空间数据处理模型误差和不确定性分析_孙庆辉

文章编号:1673-6338(2007)01-0033-04 空间数据处理模型误差和不确定性分析 孙庆辉1,2,池天河1,赵军喜2,钟大伟1,邵士新2 (1.中国科学院遥感应用研究所,北京 100101;2.信息工程大学测绘学院,河南郑州 450052) 摘要:在G IS 应用中,涉及到大量的模型应用,这些模型包括了利用G IS 进行空间信息处理的大部分阶段中所用到的模型。模型处理以及分析结果往往是进行下一步应用的基础,因此模型处理结果的误差和不确定性制约了实际的GIS 应用。影响空间数据处理模型的误差和不确定性的因素主要包括:定位和特征信息,制图,空间分析,空间数据库以及空间数据处理模型等所具有的误差和不确定性。主要分析了空间数据处理模型误差和不确定性的表达、来源以及分析方法。 关 键 词:数据处理模型;不确定性;误差;灵敏度分析;蒙特卡罗方法中图分类号:P208 文献标识码:A Errors and Uncertainties Analysis of Spatial Data Processing Model SUN Qing -hui 1牞2牞CH I Tian -he 1牞ZH AO Jun -xi 2牞ZH ONG Da -w ei 1牞SH AO Shi -xin 2 牗1牣I nstitute o f Remote Sensing Ap plications 牞CAS 牞Beij ing 100101牞China 牷 2牣Institute of S urvey ing and Mapping 牞In f ormation Engineering University 牞Z hengzhou 450052牞China 牘A bstract 牶In G IS applications 牞we alw ay s use many models to handle spatial data 牞w hich are in g ene ral concept 牞 including all the spa tial da ta pro ce ssing model and mathematic methods 牣T he result o f a model is the input data of the o ther model o r is the foundatio n of spatial data analy sis of application 牞the er ro r and unce rtainty in mo del result is a key problem in G IS applications 牣T he e rro r and uncer tainty sources of spatial da ta pro cessing mo del include spa tial data po sitional info rmatio n 牞spatial at tribute info rmatio n 牞ma pping 牞spatial analy sis 牞da tabase and model itself 牣H ere w e mainly analyzed the definitio n 牞uncer tainty so urces and analy sis methods of spatial data pro ce ssing mo del 牣Key words 牶data pro cessing mo del 牷uncer tainty 牷err or 牷sensitivity analy sis 牷mo nte carlo method GIS 是将计算机硬件、软件、地理数据以及系统管理人员组织而成的对任意形式的地理空间信息进行高效获取、存储、更新、操作、分析及显示的集成系统[1,2] 。地理信息系统以及其他信息系统对表达地理信息的空间数据的利用是通过地理信息处理模型来完成。在这里,模型是一个很广泛的概念,包括了利用GIS 进行空间信息处理的大部分阶段中所用到的模型。如,在数据获取、输入过程中应用数学模型来获取好的处理结果。在地理信息科学中,空间数据处理模型主要是指对地理信息进行获取、处理、管理、分析、表达、可视化等操作所采用的模拟处理方法的全集,同时也包括在专题应用领域中利用地理信息进行分析、处理等的专业应用模型,这些模型通常与地理信息系统进行藕合,以外部模型的方式提供应用服务。 H ar tkam p 在1999年定义了3种模型和GIS 结合的方式,分别为:“Link ”即两者之间通过数据或文件方式进行信息交换;“Combine ”即两者之间可以自动交换数据信息;“Integ ra te ”两者之间实 现真正的整合形成一个整体系统。在以往GIS 应用中,应用模型主要考虑模型的模拟表达及模型的构建。对模型处理结果的不确定性和误差以及造成模型处理结果误差的因素的研究比较少。当前,在实际应用过程中,GIS 研究人员已经意识到这方面的问题。此处主要分析模型不确定性的来源,以及模型不确定性的评价方法。在应用GIS 和模型进行客观世界信息处理时,对其结果的不确定性影响比较大的几个方面主要是:定位和特征信息,制图,空间分析,空间数据库以及空间数据处理模型等所具有的误差和不确定性。 收稿日期:2006-09-01;修回日期:2006-12-28 基金项目:国家自然科学基金(40401039) 作者简介:孙庆辉(1974-),男,河南叶县人,讲师,博士生,主要从事GIS 理论与应用方法研究。 第24卷第1期2007年2月测绘科学技术学报 Journal of Zhengz hou In stitu te of Surveying and M apping Vol.24No.1Feb.2007

空间数据挖掘主要方法

空间数据挖掘主要方法 数据分析微信公众号datadw——关注你想了解的,分享你需要的。 1.空间分析方法 利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分 析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。 2.统计分析方法 统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。 3.归纳学习方法 归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很 多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的 C5.0决策树算法。 4.聚类与分类方法 聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有 Kmean,Kmeriod,ISO DATA 等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。 5.探测性的数据分析方法 李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特 征显示出来,可发现数据中非直观 的数据特征及异常数据。 EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA

相关主题
文本预览
相关文档 最新文档