当前位置：文档之家› GIS空间数据不确定性与质量控制的研究现状

GIS空间数据不确定性与质量控制的研究现状

arcgis栅格数据空间分析实验报告

实验五栅格数据的空间分析一、实验目的理解空间插值的原理，掌握几种常用的空间差值分析方法。二、实验内容根据某月的降水量，分别采用IDW、Spline、Kriging方法进行空间插值，生成中国陆地范围内的降水表面，并比较各种方法所得结果之间的差异，制作降水分布图。三、实验原理与方法实验原理：空间插值是利用已知点的数据来估算其他临近未知点的数据的过程，通常用于将离散点数据转换生成连续的栅格表面。常用的空间插值方法有反距离权重插值法（IDW）、样条插值法（Spline）和克里格插值方法（Kriging）。实验方法：分别采用IDW、Spline、Kriging方法对全国各气象站点1980年某月的降水量进行空间插值生成连续的降水表面数据，分析其差异，并制作降水分布图。四、实验步骤 ⑴打开arcmap，加载降水数据，行政区划数据，城市数据，河流数据，并进行符号化，对行政区划数据中的多边形取消颜色填充 ⑵点击空间分析工具spatial analyst→options，在general标签中将工作空间设置为实验数据所在的文件夹

⑶点击spatial analyst→interpolate to raster→inverse distance weighted，在input points 下拉框中输入rain1980，z字段选择rain，像元大小设置为10000 点击空间分析工具spatial analyst→options，在extent标签中将分析范围设置与行政区划一致，点击spatial analyst→interpolate to raster→inverse distance weighted，在input points下拉框中输入rain1980，z字段选择rain，像元大小设置为10000 点击空间分析工具spatial analyst→options在general标签中选province作为分析掩膜，点击spatial analyst→interpolate to raster→inverse distance weighted，在input points下拉框中输入rain1980，z字段选择rain，像元大小设置为10000

不确定性数据管理的要求与挑战

专题 6无所不在近几十年来，数据管理技术发展迅猛，在国民经济建设中起到了突出作用。以Oracle、 DB2、SQL Server等为代表的大型关系数据库管理系统（Relational Database Management System，RDBMS）更是诸多大型信息管理系统、客户关系管理软件不可或缺的核心部分。同时，以可扩展标记语言（Extensible Mar k up Language，XML）为代表的半结构化数据管理技术也在数据交换和缺乏严格结构的数据管理方面占据一席之地。上述技术均对数据质量、待处理数据的准确性要求非常高。当原始数据的质量不高时，需要先经过预处理过程提升数据质量。以部门人事管理系统为例，员工的个人资料、薪酬待遇和日常考核等信息必须准确。但在诸如经济、军事和电信等领域，数据的不确定性普遍存在，其存在性未知而且各属性值存在误差。尽管数据预处理能够提升原始数据集合的质量，但也可能会丧失原始数据集合的部分性质，导致无法返回高质量的查询结果[1]。典型的应用背景如下。传感器网络与射频识别电子标签传感器网络（Sensor Networ k）[2]与无线射频识别（Radio Frequency Identification， RFID）[3]是两类新兴的数据收集和传输技术，在工业、军事等领域中有着重要应用。传感器网络中分布着众多低成本的传感器节点，相互之间以无线网络方式通讯，可用来分析处理数据；无线射频识别利用它的阅读器以非接触方式读取附近的无线射频识别标签（RFID tag），改变了传统的基于条形码的识别方式。困扰这两类应用的难题就是数据质量问题。传感器节点体积小、功耗低、主要使用低成本电子元器件，因而采集到的数据精度不高；在实用应用中，无线射频识别阅读器的误读率高达 30%～40%[4]。另外，复杂多变的工作环境也会降低原始数据的质量。在无线网络环境中，数据传输的准确性受带宽、传输延时、能量等因素影响，并不稳定。当查询任务需同时考虑来自多个传感器或无线射频识别阅读器的数据时，数据可能不一致，从而增加了数据处理的难度。互联网数据互联网上的信息资源极为丰富，而且这些信息一直在不断地膨胀，乃至于有人将互联网称为史上最大规模的数据库。根据2009年1月中国互联网信息中心（China Internet Networ k Information Center，CNNIC）的调查报告，截至2008年底，中国网站总数为287.8万个，全国网页总数约为160.9亿，较2007年增长90%，网页字数为460,217,386,099KB。但是互联网数据的质量却不尽如人意。作为一个典型的分散管理系统，互联网中并不存在一个统一的信息不确定性数据管理的要求与挑战李建中1于戈2周傲英3 1哈尔滨工业大学 2东北大学 3华东师范大学关键词：不确定性数据可能世界模型

空间不确定性研究综述

空间不确定性研究综述摘要：介绍了空间不确定性的概念，对空间不确定性的研究内容进行阐述说明并归纳总结其研究方法，对不确定性研究的发展趋势进行分析。关键词：空间数据；不确定性；GIS；研究 1 空间不确定性问题概述空间数据质量的不确定性研究伴随着GIS 的问世而开始，由于人类测量与表达能力的局限性，描述数据的模型只能是对客观实体的一种近似，此外各种空间操作、处理等又会引入新的误差和不确定性，可以说误差的存在是各类观测与分析数据的基本特征。这往往导致空间特征和空间过程很难被准确确定，从而直接关系到对GIS产品的质量控制，影响了空间数据的反演、多尺度和多角度数据分析和应用建模的效果，影响决策结果的质量。因此，在GIS初步形成和产品化时，就提出了空间数据的不确定性问题，且被国际上列为地理信息科学界重大基础理论研究课题之一。在不确定性理论提出的早期，不确定性与误差是近义词，二者在多数情况下可以相互通用。误差指统计意义下的偏差或错误，而数据不确定性主要指数据“真实值”不能被肯定的程度。从这个意义看，数据不确定性可以看作是一种更广义与抽象的误差，它既包含随机误差，也包含系统误差和粗差；既包含可度量的误差，又包含不可度量的误差以及数值上和概念上的误差。不确定性可划分为四类，分别是随机性、模糊性、未确定性和灰色性。随机性的特点是可重复观察，在观察之前知道所有可能的结果，但不知道到底哪一种结果会出现。模糊性是指事物的概念本身是模糊的，即一个对象是否符合这个概念难以确定。就像“一粒”和“一堆”是有区别的两个概念，它们的区别是渐变的，两者之间并不存在明确的界限，这种不确定性就是模糊性。未确定性是指纯主观上的、认识上的不确定性。灰色性是指由于事物的复杂性和噪声干扰，人们只能把握部分信息或信息的大致范围，而不知其全部信息或确切的信息量。 2 不确定性的研究内容空间数据不确定性的产生来源十分复杂，空间对象本身可能具有不稳定性，在空间数据的获取、存储、传输、分析等过程中会引入更多复杂的不确定性。如在数据获取过程中，仪器精度限制、测量方案完善程度、环境的复杂性、观测员的能力水平、空间分析方法与模型表达的多样性等均会造成空间数据的不确定性。根据实际应用中的需要，对地理空间数据不确定性的研究又可细分为：位置不确定性、属性不确定性、时域不确定性、逻辑一致性、数据完整性、数据不确定性的传播以及不确定性的可视化表示等[1]。地理空间数据不确定性研究的核心就是建立一套不确定性分析和处理的理论体系和方法体系。 2.1位置不确定性位置不确定性指表示空间实体的真实位置与实际位置之间的差别，空间实体的位置通常以二维或三维坐标表示，相应的，位置不确定性常用坐标的精度来表示。近年来，空间数据位置不确定性成了研究热点，主要集中在数据源不确定性

GIS矢量数据分析与栅格数据分析实验

G I S矢量数据分析与栅格数据分析实验 This model paper was revised by the Standardization Office on December 10, 2020

本科学生实验报告姓名尹永义学号专业地理科学班级 2014B ＿实验课程名称地理信息系统概论（实验）实验名称矢量数据分析与栅格数据分析指导教师及职称速绍华（讲师）开课学期 2014 ＿至＿ 2015＿学年＿下学期云南师范大学旅游与地理科学学院编印

3、实验理论依据或知识背景：矢量数据分析矢量数据以点、线和面空间要素为输入数据。分析结果的准确性取决于空间特征的位置及形状的准确性。拓扑关系是一些矢量数据分析（如建立缓冲区和叠置分析）的一个因素。基于邻近（Proximity）概念，建立缓冲区可把地图分为两个区域：一个区域位于所选地图要素的指定距离之内，另一个区域在指定距离之外。在指定距离之内的区域称为缓冲区。围绕点建立缓冲区产生圆形缓冲区。围绕线建立缓冲区形成一系列围绕每条线段的长条形缓冲带。围绕多边形建立缓冲区则生成由该多边形边界向外延伸的缓冲区。对线要素建立缓冲区未必在线两侧都有缓冲区，可以只在线的左侧或右侧建立缓冲区。缓冲距离（又叫缓冲大小）未必为常数，可以根据给定字段取值而变化。缓冲区边界也可以被融合掉，使得缓冲区之间没有叠置区。地图叠置操作是将两个要素图层的几何形状和属性组合在一起，生成新的输出图层。输出图层的几何形状代表来自各输入图层的要素的几何交集。输出图层的每个要素包含所有输入图层的属性组合，而这种组合不同于其邻域。所有叠置方法都是基于布尔连接符的运算，即AND、OR 和 XOR。若使用 AND 连接符，则此叠置操作为求交（Intersect）。若使用 OR 连接符，则此叠置操作称为联合（Union）。若使用 XOR 连接符，则此叠置操作称为对称差异（Symmetrical Difference）或差异（Difference）。若使用以下表达式 [（Input Layer）AND（Identity Layer）] OR （Input Layer），则该叠置操作称为识别（Identity）或减去（Minus）。模式分析是关于二维空间点要素空间分配的研究。在整体水平上，模式分析可以揭示某分布模式是随机、离散还是集聚的。在局部水平上，模式分析可以检测出分布模式中是否含有高值或低值的局部集聚。模式分析包括点模式分析、量测空间自相关的莫兰指数（Moran’s I）和量测高/低聚集度的G 统计量。栅格数据分析栅格数据分析是基于栅格像元和栅格的。栅格数据分析能在独立像元、像元组或整个栅格全部像元的不同层次上进行。一些栅格数据运算使用单一栅格，而另一些则使用两个或更多栅格数据。栅格数据分析也应考虑像元数值类型（数字型数值，类别型数值）。

GIS空间分析报告

本科学生设计报告姓名任富祖＿学号＿＿专业地理信息科学班级2013级GIS 课程名称 GIS 空间分析指导教师董铭开课学期 2015至2016学年＿上学期上课时间 2015 年＿9-12 月云南师范大学旅游与地理科学学院云南师范大学 2015-2016学年上学期统一考试《GIS 空间分析》期末试卷（非制卷）专业 GIS 课程名称 GIS 空间分析任课教师董铭班级 2013GIS 姓名任富祖学号

SQL中输入大于1000小于1600，如图二。图二然后得出了高程数据1000米-1600米的栅格数据，如图三。图三 2、坡度 Arctoolbox-Spatial Analyst tools-suface-Slope 用来提取坡度，得出坡度的分布栅格数据，如图四。图四然后将坡度重分类，将数据等值分成三类，以5和15为中间两个分割点，如图五。图五然后将5-15的值设为1，其余设为nodata，然后输出栅格，如图六。图六输出栅格如图七所示。图七 3、水文图三七畏多水，那么我们建立出水系，然后以1000米为缓冲区，即得出了三七不适宜生长的区域，然后通过擦除可得出适宜的区域，那么首先我们需要先进行水文分析，水文分析的第一步为填洼，如图八。图八得出了填洼后的DEM数据，然后进行流向的提取，如图九。提取出流向，然后提取流量，如图十所示。图十然后通过栅格计算器，来得出河网，阈值取3000。如图十一。图十一然后得出了河网的形状，如图十二。图十二通过转换工具，让栅格的河网，转化为矢量的河网，用到conversion工具中from 栅格to polyline。如图十三。图十三得出矢量数据河网，如图十四所示。图十四然后用到Analyst tool下proximity中的buffer工具，提取缓冲区，如图十五设置参数。图十五得到了水系旁边1000米的缓冲区，如图十六。图十六这时用到之前配准后数字化的文山polygon，用来擦除（Eraze）缓冲区，得到了矢量的擦除掉缓冲的图形，用这个在来掩膜（Extract by mask）文山的DEM，得到如图十七所示的适宜三七生长的区域。图十七 4、温度用到八个点要素，这八个点为文山州的八个县城，其年均温度非常容易得到，那么我们添加字段，将八县的年均温度输入，如图十八。图十八然后我们需要用到插值法来获取全图的温度分布，这时用IDW（反距离权重插值法），参数设置如图十九。图十九得到了温度的分布图形，如图二十。

第三章空间数据采集与处理练习资料

一、单选题 1、对于离散空间最佳的内插方法是： A．整体内插法 B．局部内插法 C．移动拟合法 D．邻近元法 2、下列能进行地图数字化的设备是： A.打印机 B.手扶跟踪数字化仪 C.主机 D.硬盘 3、有关数据处理的叙述错误的是： A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法是： A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是： A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中，手工方式主要是用于录入： A.属性数据 B.地图数据 C.影象数据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行： A.数据编辑 B.数据变换 C.数据更新 D.数据匹配 8、下列属于地图投影变换方法的是： A.正解变换 B.平移变换 C.空间变换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是： A.压缩软件 B.消冗处理 C.特征点筛选法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式： A. 手工方式 B.扫描方式 C.投影方式 D.数据通讯方式 12、以下不属于地图投影变换方法的是： A. 正解变换 B.平移变换 C.数值变换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是： A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是： A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是： A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

GIS空间分析的功能和广泛应用

一、GIS空间分析的功能前面已经介绍过GIS，大家已经知道空间分析就是对分析空间数据有关技术的统称。所以我们根据作用的数据性质不同，可以经空间分析分为： 1、空间图形数据的拓扑运算； 2、非空间属性数据运算； 3、空间和非空间数据的联合运算。空间分析赖以进行的基础是仰仗于地理空间数据库，其运用的手段包括各种几何的逻辑运算、数理统计分析，代数运算等数学手段，最终的目的是解决人们所涉及到地理空间的实际问题，提取和传输地理空间信息，特别是隐含信息，以辅助决策。 GIS中可以实现空间分析的基本功能，包括空间查询与量算，叠加分析、缓冲区分析、网络分析等，并描述了相关的算法，以及其中的计算公式。 1、叠加分析叠加分析至少要使用到同一区域，具有相同坐标系统的两个图层。所谓叠加分析，就是将包含感兴趣的空间要素对象的多个数据层进行叠加，产生一个新要素图层。该图层综合了原来多层实体要素所具有的属性特征。叠加分析的目标是分析在空间位置上有一定关联的空间对象的空间特征和专题属性之间的相互关系。多层数据的叠加分析，不仅仅产生了新的空间对象的空间特征和专题属性之间的相互关系，能够发现多层数据间的相互差异、联系和变换等特征。根据GIS数据结构的不同，将GIS叠加分析分为基于矢量数据的叠加分析和基于栅格数据的叠加分析。在GIS的矢量数据结构中，地理孔吉对象由点、线、面等要素来表示，所以基于矢量数据的叠加分析又可以分为点与多边形的叠加分析、线与多边形的叠加分析和多边形间的叠加分析三大类。

点与多边形的叠加，就是研究某一矢量数据层中的点要素位于另外一个矢量数据层中的哪个多边形内，这呀就可以根据点与多边形的空间关系，确定给点要素添加哪些属性特征。线与多边形叠加，就是研究矢量数据层中的线要素与其他数据层中的多边形要素之间的关系，进而判定线要素与多边形的相离、相交、包含等空间关心。多边形的叠加，就是要研究两个或多个多边形矢量数据层的叠加操作，生成一个新的多边形数据层。栅格数据的叠加分析可以表达为地图代数的元算的过程。所谓地图代数，就是指在GIS中将数据层作为方程变量的函数运算，通常情况下都是指栅格数据层运算。栅格数据中，地理实体都是通过规则网格单元来表示的，层与层之间的叠加操作是通过逐个网格单元之间的运算来实现的。在栅格数据叠加分析中，地图代数运算又分为代数运算与逻辑运算。栅格叠加分析与多边形叠加分析一样，是求两组或两组以上空间图形的交集，但是多边形叠加分析得到的是合成多边形，而栅格叠加分析得到的是合成数据串，这些合成的数据文件是进一步进行空间聚类或聚合的依据。类型叠加：将两组或两组以上的地理编码数据，求它们的交集，以建立新的数据文件，根据分析任务，设置命令，得到最后的类型叠加结果。统计叠加：将区域界线(政区、自然区域或经济区域等)，与专题数字地图叠加，建立的合成数据串，作出各区专门内容的数量统计。动态分析：将同一种要素在不同时期的两组属性数据叠加，建立合成数据串，它们之差就是该要素在该时段内的变化，在土地利用动态监测中，常要使用这种分析方法。 2、缓冲区分析缓冲区是根据点、线、面地理实体，建立起周围一定宽度范围内的扩展距离图，缓冲区的作用是用来限定所需处理的专题数据的空间范围。一般认为缓冲区以内的信息均是与构成缓冲区的核心实体相关的，及邻接或关联关系，而缓冲区以外的数据与分析无关。

栅格数据的空间分析

栅格数据的空间分析一、实验综述 1、实验目的及要求实验目的：学习ARCGIS中栅格数据的空间分析基本方法，掌握ArcGIS9中栅格数据空间分析的基本方法和操作。 b5E2RGbCAP 实验内容：运用ARCGIS的空间分析扩展模块进行空间分析。 Arcgis10的栅格数据的空间分析基本方法：栅格数据重分类、距离分析、采样点数据空间插值、栅格单元统计、交叉面积表、邻域分析、栅格计算器等。 p1EanqFDPw 2、实验仪器、设备 ARCGIS软件、landuse和elevation等二、实验步骤 1.栅格分析环境设置：首先在ArcMap中执行菜单命令<自定义>－<扩展模块>，在扩展模块管理窗口中，将“spatial analysis空间分析”前的检查框打上勾。DXDiTa9E3d

ArcGIS10栅格数据空间分析模块

3、高程数据生成坡向图在“Arctools-Spatial Analyst-表面分析”中双击打开“坡向”。按如下设置。点击“确定”，生成坡向图。jLBHrnAILg

4、高程数据生成等高线图在“Arctools-Spatial Analyst-表面分析中”双击打开“等值线”。按如下设置。点击“确定”，生成等值线图。xHAQX74J0X

空间数据基本理论

1.空间地理数据的基本特征要完整地描述空间实体或现象的状态，一般需要同时有空间数据和属性数据。如果要描述空间实体或的变化，则还需记录空间实体或现象在某一个时间的状态。所以，一般认为空间数据具有三个基本特征： ⑴空间特征表示现象的空间位置或现在所处的地理位置。空间特征又称为几何特征或定位特征，一般以坐标数据表示。 ⑵属性特征表示现象的特征，例如变量、分类、数量特征和名称等等。 ⑶时间特征指现象或物体随时间的变化。位置数据和属性数据相对于时间来说，常常呈相互独立的变化，即在不同的时间，空间位置不变，但是属性类型可能已经发生变化，或者相反。因此，空间数据的管理是十分复杂的。有效的空间数据管理要求位置数据和非位置数据互相作为单独的变量存放，并分别采用不同的软件来处理这两类数据。这种数据组织方法，对于随时间而变化的数据，具有更大的灵活性。 2.如何在计算机内部用数字形式描述客观事物或现象对地理信息进行数字化描述，就是要使计算机能够识别地理事物的形状，为此，必须精确地指出空间模式如何处理，如何显示等。在计算机内描述空间实体有两种形式：显式描述和隐式描述。在计算机中的显式表示，就是栅格中的一系列像元。隐式表示是由一系列定义了始点和终点的线及某种连接关系来描述。计算机对地理实体的显式描述也称栅格数据结构，计算机对地理实体的隐式描述也称矢量数据结构。栅格和矢量结构是计算机描述空间实体的两种最基本的方式。在栅格数据结构中，整个地理空间被规则地分为一个个小块（通常为正方形），地理实体的位置是由占据小块的横排与竖列的位置决定，小块的位置则由其横排竖列的数码决定，每个地理实体的形态是由栅格或网格中的一组点来构成。

GIS空间分析复习提纲及答案

空间分析复习提纲一、基本概念(要求：基本掌握其原理及含义，能做名词解释) 1、空间分析：是基于地理对象的位置和形态的空间数据的分析技术，其目的在于提取和传输空间信息。 2、空间数据模型：以计算机能够接受和处理的数据形式，为了反映空间实体的某些结构特性和行为功能，按一定的方案建立起来的数据逻辑组织方式，是对现实世界的抽象表达。分为概念模型、逻辑模型、物理模型。 3、叠置分析：是指在同一地区、同一比例尺、同一数学基础、不同信息表达的两组或多组专题要素的图形或数据文件进行叠加，根据各类要素与多边形边界的交点或多边形属性建立多重属性组合的新图层，并对那些结构和属性上既互相重叠，又互相联系的多种现象要素进行综合分析和评价；或者对反映不同时期同一地理现象的多边形图形进行多时相系列分析，从而深入揭示各种现象要素的内在联系及其发展规律的一种空间分析方法。 4、网络分析：网络分析是通过研究网络的状态以及模拟和分析资源在网络上的流动和分配情况，对网络结构及其资源等的优化问题进行研究的一种空间分析方法。 5、缓冲区分析：即根据分析对象的点、线、面实体，自动建立它们周围一定距离的带状区，用以识别这些实体或主体对邻近对象的辐射范围或影响度，以便为某项分析或决策提供依据。其中包括点缓冲区、线缓冲区、面缓冲区等。 6、最佳路径分析：也称最优路径分析，以最短路径分析为主，一直是计算机科学、运筹学、交通工程学、地理信息科学等学科的研究热点。这里“最佳”包含很多含义，不仅指一般地理意义上的距离最短，还可以是成本最少、耗费时间最短、资源流量（容量）最大、线路利用率最高等标准。 7、空间插值：空间插值是指在为采样点估计一个变量值的过程，常用于将离散点的测量数据转换为连续的数据曲面，它包括内插和外推两种算法。，前者是通过已知点的数据计算同一区域内其他未知点的数据，后者则是通过已知区域的数据，求未知区域的数据。 8、空间量算：即空间量测与计算，是指对GIS数据库中各种空间目标的基本参数进行量算与分析，如空间目标的位置、距离、周长、面积、体积、曲率、空间形态以及空间分布等，空间量算是GIS获取地理空间信息的基本手段，所获得的基本空间参数是进行复杂空间分析、模拟与决策制定的基础。 9、克里金插值法：克里金插值法是空间统计分析方法的重要内容之一，它是建立在半变异函数理论分析基础上，对有限区域内的区域变化量取值进行无偏最优估计的一种方法，不仅考虑了待估点与参估点之间的空间相关性，还考虑了各参估点间的空间相关性，根据样本空间位置不同、样本间相关程度的不同，对每个参估点赋予不同的权，进行滑动加权平均，以估计待估点的属性值。二、分析类(要求：重点掌握其原理及含义，能结合本专业研究方向做比较详细的阐述) 1、空间数据模型的分类？答：分为三类： ①场模型：用于表述二维或三维空间中被看作是连续变化的现象； ②要素模型：有时也称对象模型，用于描述各种空间地物； ③网络模型：一种某一数据记录可与任意其他多个数据记录建立联系的有向图结构的数据模型，可以模拟现实世界中的各种网络。

不确定性数据的分类方法研究综述

第19卷第4期重庆科技学院学报（自然科学版)2017年8月不确定性数据的分类方法研究综述沈杰许高建杨阳李绍稳 (安徽农业大学信息与计算机学院，合肥230036) 摘要:传统的数据挖掘分类方法能够成功地应用于确定性数据分类，但却无法满足绝大多数领域中复杂的不确定性数据的分类需求，由此出现了一系列针对不确定性数据的分类方法。通过大量研究，目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展，如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。关键词:不确定性数据；分类；支持向量机；朴素贝叶斯；决策树中图分类号:TP301 文献标识码:A文章编号=1673 -1980(2017)04 -0096 -04 面临海量的、复杂的不确定性数据，针对不确定性数据的数据挖掘成为智能分析数据并获取知识的重要手段，分类算法成为其主要的研究方向之一。2006年，第六届ffiEE数据挖掘国际会议（I C D M)评选了最具影响的10个数据挖掘算法，其中分类算法占据了 6 个：k - N N、Naive Bayes、C4. 5、C A R T、S V M、AdaB〇〇s t[1]。分类的任务就是通过分析来建立区分对象的分类模型，即分类器。传统的分类算法通常将精确数据作为研究背景，只考虑了精准数据的输入和分类，因而不能直接应用于不确定性数据分类，如支持向量机（S V M)、决策树、朴素贝叶斯算法等。针对此现象，基于这些算法的原有经典模式加以改进，加入不确定性数据分析，可使得不确定知识数据挖掘技术更加成熟。 1不确定性数据 1.1不确定性数据的产生数据的不确定性源于数据本身。数据不确定性分以下几种情况：采集数据时出现缺省值、干扰值等;在实验时受周围环境的影响而导致数据不确定; 在数据传输过程中的失真导致不确定性。 1.2不确定性数据的表示不确定性一般可分为存在（元组级）不确定性和值(属性级)不确定性[2]。其中，存在（元组级）不确定性是指一个对象即有出现的可能性，也有不出现的可能，如某天可能会下雨或者可能不会下雨;而值(属性级）不确定性是指这个对象取值的不确定性。在高维空间中，确定性数据对象表现为某些具体的点，而不确定数据对象的表现形式为满足某种分布的一个范围。 2常见的不确定性数据分类方法 2.1支持向量机算法 Vapnik等人提出的传统支持向量机是一种基于统计学理论、以结构风险最小化为原则的判别式分类器[>5]。其基本思想是，在《维数据空间中寻找一个超平面，可以极大化地将空间属于不同类别的样本点分开，对于精确的小样本数据有很好的分类效果。孙喜晨等人对不确定数据作了预处理，在属性均值聚类（A M C)与支持向量机（S V M)的基础上，提出基于（属性）聚类的属性支持向量机（A M C -A S V M)算法[6]。该算法对样本进行属性均值聚类，然后将各个聚类中心及其属性作为新的样本点来训练，进而得到分类器[7]。但该方法本质上是将数据的不确定性转化为确定性来处理，对不确定性考虑得不够充分。 Jianqiang Y a n g等人在S V M中引入多维高斯分布模型来描述不确定数据的，提出U S V C、A U S V C 及M P S V C支持向量机分类算法[8]。U S V C的原始问题通过引入约束得到，将机会约束的规划问题转化为二次规划问题来求解。而A U S V C以及M P S V C 是由U S V C算法改进而来，即通过调整U S V C中的收稿日期=2017 -03 -23 基金项目：国家自然科学基金项目“农业领域（茶学）云本体建模与方法研究”（31271615)作者简介:沈杰（1990 —），女，合肥人，在读硕士研究生，研究方向为人工智能和数据挖掘? 96 ?

栅格数据结构和矢量数据结构空间分析

一、矢量、栅格数据结构的优缺点矢量数据结构可具体分为点、线、面，可以构成现实世界中各种复杂的实体，当问题可描述成线或边界时，特别有效。矢量数据的结构紧凑，冗余度低，并具有空间实体的拓扑信息，容易定义和操作单个空间实体，便于网络分析。矢量数据的输出质量好、精度高。矢量数据结构的复杂性,导致了操作和算法的复杂化，作为一种基于线和边界的编码方法，不能有效地支持影像代数运算，如不能有效地进行点集的集合运算（如叠加），运算效率低而复杂。由于矢量数据结构的存贮比较复杂，导致空间实体的查询十分费时，需要逐点、逐线、逐面地查询。矢量数据和栅格表示的影像数据不能直接运算（如联合查询和空间分析），交互时必须进行矢量和栅格转换。矢量数据与DEM数字高程模型）的交互是通过等高线来实现的，不能与DEM 直接进行联合空间分析。栅格数据结构是通过空间点的密集而规则的排列表示整体的空间现象的。其数据结构简单，定位存取性能好，可以与影像和DEM数据进行联合空间分析，数据共享容易实现，对栅格数据的操作比较容易。栅格数据的数据量与格网间距的平方成反比，较高的几何精度的代价是数据量的极大增加。因为只使用行和列来作为空间实体的位置标识，故难以获取空间实体的拓扑信息，难以进行网络分析等操作。栅格数据结构不是面向实体的，各种实体往往是叠加在一起反映出来的，因而难以识别和分离。对点实体的识别需要采用匹配技术，对线实体的识别需采用边缘检测技术，对面实体的识别则需采用影像分类技术，这些技术不仅费时，而且不能保证完全正确。

通过以上的分析可以看出，矢量数据结构和栅格数据结构的优缺点是互补的（图2-4-1 ），为了有效地实现GIS中的各项功能（如与遥感数据的结合，有效的空间分析等）需要同时使用两种数据结构，并在GIS中实现两种数据结构的高效转换。在GIS建立过程中，应根据应用目的和应用特点、可能获得的数据精度以及地理信息系统软件和硬件配置情况，选择合适的数据结构。一般来讲，栅格结构可用于大范围小比例尺的自然资源、环境、农林业等

ARCGIS空间分析操作步骤

ARCGIS空间分析基本操作一、实验目的 1. 了解基于矢量数据和栅格数据基本空间分析的原理和操作。 2. 掌握矢量数据与栅格数据间的相互转换、栅格重分类(Raster Reclassify)、栅格计算－查询符合条件的栅格(Raster Calculator)、面积制表（Tabulate Area）、分区统计(Zonal Statistic)、缓冲区分析(Buffer) 、采样数据的空间内插(Interpolate)、栅格单元统计（Cell Statistic）、邻域统计（Neighborhood）等空间分析基本操作和用途。 3. 为选择合适的空间分析工具求解复杂的实际问题打下基础。二、实验准备预备知识：空间数据及其表达空间数据（也称地理数据）是地理信息系统的一个主要组成部分。空间数据是指以地球表面空间位置为参照的自然、社会和人文经济景观数据，可以是图形、图像、文字、表格和数字等。它是GIS所表达的现实世界经过模型抽象后的内容，一般通过扫描仪、键盘、光盘或其它通讯系统输入GIS。在某一尺度下，可以用点、线、面、体来表示各类地理空间要素。有两种基本方法来表示空间数据：一是栅格表达; 一是矢量表达。两种数据格式间可以进行转换。

空间分析空间分析是基于地理对象的位置和形态的空间数据的分析技术，其目的在于提取空间信息或者从现有的数据派生出新的数据，是将空间数据转变为信息的过程。空间分析是地理信息系统的主要特征。空间分析能力（特别是对空间隐含信息的提取和传输能力）是地理信息系统区别与一般信息系统的主要方面，也是评价一个地理信息系统的主要指标。空间分析赖以进行的基础是地理空间数据库。空间分析运用的手段包括各种几何的逻辑运算、数理统计分析，代数运算等数学手段。空间分析可以基于矢量数据或栅格数据进行，具体是情况要根据实际需要确定。空间分析步骤根据要进行的空间分析类型的不同，空间分析的步骤会有所不同。通常，所有的空间分析都涉及以下的基本步骤，具体在某个分析中，可以作相应的变化。空间分析的基本步骤: a)确定问题并建立分析的目标和要满足的条件 b)针对空间问题选择合适的分析工具 c)准备空间操作中要用到的数据。 d)定制一个分析计划然后执行分析操作。 e)显示并评价分析结果

地理不确定性研究

空间不确定性研究进展张勇（浙江师范大学地理与环境科学学院，浙江金华321004）摘要：GIS随着计算机技术的发展而出现，并正处于激烈的演化和发展状态。文中介绍了GIS现状及发展趋势，以及由错误导致的拓扑关系的不确定性和GIS(空间数据、空间推理、空间查询、空间查询语言)的不确定性、拓扑关系理论的发展、GIS在21世纪的发展等问题。关键词：地理信息系统（GIS）；空间数据；拓扑学关系；不确定性；不一致性Advance of study in spatial uncertainty Zhang Yong ( Zhejiang Normal University College of environment and sciences , Zhejiang Jinhua 321004) Abstract: The emergence of GIS keep pace with the development of computer technology,and be in the state of evolution and intense development. This paper describes the current situation and development of GIS trend, as well as the uncertainty caused by the error of topological relations and GIS (spatial data, spatial reasoning, spatial query, spatial query language) of uncertainty, development of topological relation theory, development and other issues of GIS in the 21 century. 1绪论地理信息系统（GIS）是以采集、存储、管理、分析和描述整个和部分地球表面与空间和地理分布有关的空间信息系统。GIS在采集和处理、分析中出现的数据范围很广，包括位置数据、属性数据、时域数据、逻辑关系等。由于现实世界的复杂性和模糊性、人类表达能力的局限性，数据不可避免地含有误差，研究GIS的误差理论，直接关系到GIS产品的质量控制。因此在GIS初步形成和产品化时，提出了数据质量中空间数据的不确定性理论，并被国际上列为20世纪90年代的重点基础理论课题之一。所谓不确定性是指一种广义的误差，它包含数值和概念的误差，也包含可

探索不确定性与遥感数据论文英译汉

Exploring uncertainty in remotely sensed data with parallel coordinate plots Yong Ge , Sanping Li , V. Chris Lakhan , Arko Lucieer Abstract The existence of uncertainty in classified remotely sensed data necessitates the application of enhanced techniques for identifying and visualizing the various degrees of uncertainty. This paper, therefore, applies the multidimensional graphical data analysis technique of parallel coordinate plots (PCP) to visualize the uncertainty in Landsat Thematic Mapper (TM) data classified by the Maximum Likelihood Classifier (MLC) and Fuzzy C-Means (FCM). The Landsat TM data are from the Yellow River Delta, Shandong Province, China. Image classification with MLC and FCM provides the probability vector and fuzzy membership vector of each pixel. Based on these vectors, the Shannon’s entropy (S.E.) of each pixel is calculated. PCPs are then produced for each classification output. The PCP axes denote the posterior probability vector and fuzzy membership vector and two additional axes represent S.E. and the associated degree of uncertainty. The PCPs highlight the distribution of probability values of different land cover types for each pixel, and also reflect the status of pixels with different degrees of uncertainty. Brushing functionality is then added to PCP visualization in order to highlight selected pixels of interest. This not only reduces the visualization uncertainty, but also provides invaluable information on the positional and spectral characteristics of targeted pixels. 1. Introduction A major problem that needs to be addressed in remote sensing is the analysis, identification and visualization of the uncertainties arising from the classification of remotely sensed data with classifiers such as the Maximum Likelihood Classifier (MLC) and Fuzzy C-Means (FCM). While the estimation and mapping of uncertainty has been discussed by several authors (for example, Shi and Ehlers, 1996; van der Wel et al., 1998; Dungan et al., 2002; Foody and Atkinson, 2002; Lucieer and Kraak, 2004; Ibrahim et al., 2005; Ge and Li, 2008a), very little research has been done on identifying, targeting and visualizing pixels with different degrees of uncertainty. This paper, therefore, applies parallel coordinate plots (PCP) (Inselberg, 1985, 2009; Inselberg and Dimsdale, 1990) to visualize the uncertainty in sample data and classified data with MLC and Fuzzy C-Means. A PCP is a multivariate visualization tool that plots multiple attributes on the X-axis against their values on the Y-axis and has been widely applied to data mining and

空间数据处理模型误差和不确定性分析_孙庆辉

文章编号:1673-6338(2007)01-0033-04 空间数据处理模型误差和不确定性分析孙庆辉1,2,池天河1,赵军喜2,钟大伟1,邵士新2 (1.中国科学院遥感应用研究所,北京　100101;2.信息工程大学测绘学院,河南郑州　450052) 摘要:在G IS 应用中,涉及到大量的模型应用,这些模型包括了利用G IS 进行空间信息处理的大部分阶段中所用到的模型。模型处理以及分析结果往往是进行下一步应用的基础,因此模型处理结果的误差和不确定性制约了实际的GIS 应用。影响空间数据处理模型的误差和不确定性的因素主要包括:定位和特征信息,制图,空间分析,空间数据库以及空间数据处理模型等所具有的误差和不确定性。主要分析了空间数据处理模型误差和不确定性的表达、来源以及分析方法。关　键　词:数据处理模型;不确定性;误差;灵敏度分析;蒙特卡罗方法中图分类号:P208 文献标识码:A Errors and Uncertainties Analysis of Spatial Data Processing Model SUN Qing -hui 1牞2牞CH I Tian -he 1牞ZH AO Jun -xi 2牞ZH ONG Da -w ei 1牞SH AO Shi -xin 2 牗1牣I nstitute o f Remote Sensing Ap plications 牞CAS 牞Beij ing 100101牞China 牷 2牣Institute of S urvey ing and Mapping 牞In f ormation Engineering University 牞Z hengzhou 450052牞China 牘A bstract 牶In G IS applications 牞we alw ay s use many models to handle spatial data 牞w hich are in g ene ral concept 牞 including all the spa tial da ta pro ce ssing model and mathematic methods 牣T he result o f a model is the input data of the o ther model o r is the foundatio n of spatial data analy sis of application 牞the er ro r and unce rtainty in mo del result is a key problem in G IS applications 牣T he e rro r and uncer tainty sources of spatial da ta pro cessing mo del include spa tial data po sitional info rmatio n 牞spatial at tribute info rmatio n 牞ma pping 牞spatial analy sis 牞da tabase and model itself 牣H ere w e mainly analyzed the definitio n 牞uncer tainty so urces and analy sis methods of spatial data pro ce ssing mo del 牣Key words 牶data pro cessing mo del 牷uncer tainty 牷err or 牷sensitivity analy sis 牷mo nte carlo method GIS 是将计算机硬件、软件、地理数据以及系统管理人员组织而成的对任意形式的地理空间信息进行高效获取、存储、更新、操作、分析及显示的集成系统[1,2] 。地理信息系统以及其他信息系统对表达地理信息的空间数据的利用是通过地理信息处理模型来完成。在这里,模型是一个很广泛的概念,包括了利用GIS 进行空间信息处理的大部分阶段中所用到的模型。如,在数据获取、输入过程中应用数学模型来获取好的处理结果。在地理信息科学中,空间数据处理模型主要是指对地理信息进行获取、处理、管理、分析、表达、可视化等操作所采用的模拟处理方法的全集,同时也包括在专题应用领域中利用地理信息进行分析、处理等的专业应用模型,这些模型通常与地理信息系统进行藕合,以外部模型的方式提供应用服务。 H ar tkam p 在1999年定义了3种模型和GIS 结合的方式,分别为:“Link ”即两者之间通过数据或文件方式进行信息交换;“Combine ”即两者之间可以自动交换数据信息;“Integ ra te ”两者之间实现真正的整合形成一个整体系统。在以往GIS 应用中,应用模型主要考虑模型的模拟表达及模型的构建。对模型处理结果的不确定性和误差以及造成模型处理结果误差的因素的研究比较少。当前,在实际应用过程中,GIS 研究人员已经意识到这方面的问题。此处主要分析模型不确定性的来源,以及模型不确定性的评价方法。在应用GIS 和模型进行客观世界信息处理时,对其结果的不确定性影响比较大的几个方面主要是:定位和特征信息,制图,空间分析,空间数据库以及空间数据处理模型等所具有的误差和不确定性。收稿日期:2006-09-01;修回日期:2006-12-28 基金项目:国家自然科学基金(40401039) 作者简介:孙庆辉(1974-),男,河南叶县人,讲师,博士生,主要从事GIS 理论与应用方法研究。第24卷第1期2007年2月测绘科学技术学报 Journal of Zhengz hou In stitu te of Surveying and M apping Vol.24No.1Feb.2007

文档之家