365文库
登录
注册
2

数据质量的检查与控制

263阅读 | 9收藏 | 8页 | 打印 | 举报 | 认领 | 下载提示 | 分享:
2
数据质量的检查与控制第1页
数据质量的检查与控制第2页
数据质量的检查与控制第3页
数据质量的检查与控制第4页
数据质量的检查与控制第5页
数据质量的检查与控制第6页
数据质量的检查与控制第7页
数据质量的检查与控制第8页
福利来袭,限时免费在线编辑
转Pdf
right
1/8
right
下载我编辑的
下载原始文档
收藏 收藏
搜索
下载二维码
App功能展示
海量免费资源 海量免费资源
文档在线修改 文档在线修改
图片转文字 图片转文字
限时免广告 限时免广告
多端同步存储 多端同步存储
格式轻松转换 格式轻松转换
用户头像
命中缺你注定是你 上传于:2024-04-18
数 据 质 量 检 查 与 质 量 控 制 要想清楚并深层次的了解数据质量检查与质量控制的原理,首先应该知道数据质量的基本概念以及数据误差的来源。因为在某些情况下,数据质量问题在很大程度上可以看作是数据误差问题。下面我就详细的为大家介绍数据质量的基本概念和误差来源及其分析,并就其误差,我们再结合相应的检查方法进行精度分析的探讨。 一、数据质量的基本概念 1、准确性(Accuracy) 即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。 2、精度(Precision) 即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标不可能依赖于比0.1mm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分之一的地方是以mm表示的。 3、空间分辨率(Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。 4、比例尺(Scale) 比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象。 5、误差(Error) 定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。 6、不确定性(Uncertainty) 地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在GIS中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。 二、空间数据质量问题的来源 从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数据质量问题的来源。 1、空间现象自身存在的不稳定性 空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。 2、空间现象的表达 数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免。 3、空间数据处理中的误差 在空间数据处理过程中,容易产生的误差有以下几种: 投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。 地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。 数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。 数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。 建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。 与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。 数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。 数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。 数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。 数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。 4、空间数据使用中的误差 在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导致数据用户对数据的随意性使用而使误差扩散。 表:数据的主要误差来源 数据处理过程 误差来源 数据搜集 野外测量误差:仪器误差、记录误差 遥感数据误差:辐射和几何纠正误差、信息提取误差 地图数据误差:原始数据误差、坐标转换、制图综合及印刷 数据输入 数字化误差:仪器误差、操作误差 不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换 数据存储 数值精度不够 空间精度不够:每个格网点太大、地图最小制图单元太大 数据处理 分类间隔不合理 多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差 比例尺太小引起的误差 数据输出 输出设备不精确引起的误差 输出的媒介不稳定造成的误差 数据使用 对数据所包含的信息的误解 对数据信息使用不当 三、常见空间数据的误差分析 GIS中的误差是指GIS中数据表示与其现实世界本身的差别。数据误差的类型可以是随机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻辑误差,因此下面主要讨论逻辑误差和几何误差。 1、误差的类型 (1)逻辑误差 数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的逻辑性检查入手。如图1所示,其中桥或停车场等与道路是相接的,如果数据库中只有桥或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整。  图1:各种逻辑误差 (2)几何误差 由于地图是以二维平面坐标表达位置,在二维平面上的几何误差主要反映在点和线上。 (2.1)点误差 关于某点的点误差即为测量位置(x,y)与其真实位置(x0,y0)的差异。真实位置的测量方法比测量位置的要更加精确,如在野外使用高精度的GPS方法得到。点误差可通过计算坐标误差和距离的方法得到。坐标误差定义为: Δx=x-x0 ; Δy=y-y0 为了衡量整个数据采集区域或制图区域内的点误差,一般抽样测算(Δx,Δy)。抽样点应随机分布于数据采集区内,并具有代表性。这样抽样点越多,所测的误差分布就越接近于点误差的真实分布。 (2.2)线误差 线在地理信息系统数据库中既可表示线性现象,又可以通过连成的多边形表示面状现象。第一类是线上的点在真实世界中是可以找到的,如道路、河流、行政界线等,这类的线性特征的误差主要产生于测量和对数据的后处理;第二类是现实世界中找不到的,如按数学投影定义的经纬线、按高程绘制的等高线,或者是气候区划线和土壤类型界限等,这类线性特征的线误差及在确定线的界限时的误差,被称为解译误差。解译误差与属性误差直接相关,若没有属性误差,则可以认为那些类型界线是准确的,因而解译误差为零。 另外,线分为直线、折线、曲线与直线混合的线(图2)。GIS数据库中用两种方法表达曲线、折线,图3对这两类误差作了对照。  图2:各种线(直线、折线、曲线)  图3:折线和曲线的误差 线误差分布可以用Epsilon带模型来描述,它由沿着一条线以及两侧定宽的带构成,真实的线以某一概率落于Epsilon带内。Epsilon带是等宽的(类似于后面讲述的缓冲区,不过其意义不同),在此基础上,误差带模型被提出,与Epsilon带模型相比,它在中间最窄而在两端较宽。基于误差带模型,可以把直线与折线误差分布的特点分别看作是“骨头型”或者“车链型”的误差分布带模式(图4)。  图4:折线误差的分布 对于曲线的误差分布或许应当考虑“串肠型模式”(图5)。  图5:曲线的误差分布 2、地图数据的质量问题 地图数据是现有地图经过数字化或扫描处理后生成的数据。在地图数据质量问题中,不仅含有地图固有的误差,还包括图纸变形、图形数字化等误差。 1)地图固有误差:是指用于数字化的地图本身所带有的误差,包括控制点误差、投影误差等。由于这些误差间的关系很难确定,所以很难对其综合误差作出准确评价。如果假定综合误差与各类误差间存在线性关系,即可用误差传播定律来计算综合误差。 2)材料变形产生的误差:这类误差是由于图纸的大小受湿度和温度变化的影响而产生的。温度不变的情况下,若湿度由0%增至25%,则纸的尺寸可能改变1.6%;纸的膨胀率和收缩率并不相同,即使湿度又恢复到原来的大小,图纸也不能恢复原有的尺寸,一张6英寸的图纸因湿度变化而产生的误差可能高达0.576英寸。在印刷过程中,纸张先随温度的升高而变长变宽,又由于冷却而产生收缩。 3)图象数字化误差:数字化方式主要有跟踪数字化和扫描数字化两种。跟踪数字化一般有点方式和流方式两种工作方式,前者在实际工作中使用较多,后者进行数字化所产生的误差要比前者大得多。 此外,还有不同数据的录入方式对数据质量的影响问题,主要包括跟踪数字化和扫描数字化。 跟踪数字化: 影响其数据质量的因素主要有:数字化要素对象、数字化操作人员、数字化仪和数字化操作。其中,数字化要素对象:地理要素图形本身的高度、密度和复杂程度对数字化结果的质量有着显著影响,如粗线比细线更易引起误差,复杂曲线比平直线更易引起误差,密集的要素比稀疏的要素更易引起误差等;数字化操作人员
tj