什么是地质数据预处理
Ⅰ 数据预处理
根据掌握资料情况,结合工作实际,确定工作区的比例尺为1∶50万,为进一步的成矿预测工作,将工作区内所有数据通过变换统一到同一坐标系统下,选用“高斯-克吕格”投影方式,任意分带,中央经线1150000,最南端纬线为440000。
(1)生成基准经纬网:根据工作的制图投影方式,利用“生成经纬网”功能,生成工作区的基准经纬网。
(2)生成金矿床(点)图层:收集的矿产地数据中,各矿产地均有“地理经度”、“地理纬度”数据,由此,利用“生成点图层”功能,生成矿床(点)分布图层,投影参数与生成的基准经纬网一致。
(3)数据格式转换:将数据准备中的MapGIS格式文件转换为shp格式。
(4)图层配准:将准备好的各矢量化图层,通过对图层的“缩放”、“旋转”、“平移”等,配准到基准经纬网上。
(5)线性构造方位角统计:对地质断裂,利用“线走向”功能,统计每条构造线的走向。
(6)统计构造线密度及交叉点数:对遥感解译构造(包括线形和环形),利用“单元格内线性体交点数”和“单元内实体数”功能,统计构造密度及交叉点数。
(7)线图层转为面图层:对化探异常、重砂异常等线图层,利用“线面互转”工具,转换为面图层,形成异常区,以供统计预测使用。
(8)岩浆岩图层:各时代岩浆岩是地质体图层的组成部分,由于地质上的特殊性,将其检索出来单独成层。利用“专用查询”工具,根据“颜色号(Color-no)”字段,将各时代岩浆岩检索出来。
(9)有利地质体图层:利用点(已知矿床)对区(地质体)的空间分析,得出与金矿产出相关的地质体,利用“专用查询”→“A.根据给定的字符串查询”,从地质体图层中根据“颜色号(Col-or-no)”或“地质符号(Symbel)”或“地质体名称(Unitname)”字段,将有利地质体检索出来。
Ⅱ 什么是数据预处理(在数据仓库中的概念)
主要是数据的抽取、转化、和清理,抽取的话就是从外围系统或源系统中把数据导入,转化一般指对数据的进行统一(包括数据格式和数据编码的统一),清理就是把一些垃圾数据清理掉,保留有用数据。
Ⅲ 什么是基础地质数据
为经济社会发展服务的公益性基础地质信息,现阶段主要包括区域地质调查、回区域地球物理勘查答、区域地球化学勘查、区域遥感地质调查、区域水文地质调查、区域工程地质调查、区域地壳稳定性评价、区域海洋地质调查、大洋和极地地质调查,以及地壳深部探测数据等。
Ⅳ 数据的预处理包括哪些内容
数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理。如对大专部分地球物理属面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
数据预处理的方法:
1、数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
2、数据集成
数据集成例程将多个数据源中的数据结合起来并 统一存储,建立数据仓库的过程实际上就是数据集成。
3、数据变换
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
4、数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。
Ⅳ 什么是统计数据的预处理
就是说,对数据进行检验,看数据是否有缺失值、错误值等等。
如果有错误值,要修专正。有缺失,视情况插属补。
数据没有问题时,称为clean data ,即干净数据,然后才能进一步分析。
否则,如果数据有问题,称为dirty data
Ⅵ 什么事数据预处理
数据预处理( preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
数据集成
数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。
数据变换
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。
目前,数据预处理是目前数据挖掘一个热门的研究方面,毕竟这是由数据预处理的产生背景所决定的--现实世界中的数据几乎都脏数据。
Ⅶ 地质矿产数据源的选择和预处理
10.2.2.1地质数据源的选择和预处理
工作中所需地质内容取自浙江省1∶50万地质图数据库(1996年版),根据待评价的金、银、铜、萤石、叶蜡石矿床的区域地质特征,结合遥感工作实际需要,从中提取地层、侵入岩、断裂构造三个图层作为成矿预测的部分信息源。使用前将其(MapGis文件)转换为ENVI软件能识别的文件类型,具体步骤如下。
首先在MapGis6.0软件中将地层、侵入岩、断裂构造三个图层按无投影类型方式分别转换成Mapinfo交换文件,然后将其进一步转为dxf文件格式,相应属性数据转为dmb数据库格式,最后在ENVI软件下打开dxf文件,定义其投影类型和投影参数(即原图的投影类型和投影参数:兰伯特双标准纬线等角割圆锥投影,中央经线120°30′,标准纬线分别为28°00′和30°30′),并进一步将其转为与影像地图集统一的投影类型(高斯-克吕格投影)和投影参数,形成标准ENVI矢量文件(*.evf)。局部使用1∶20万丽水幅地质图数据库地质内容进行补充,其处理方法同上。
10.2.2.2矿产地数据的选择和预处理
工作所用矿产数据主要从浙江省矿产地数据库中提取,该数据库为Access数据格式。其中的矿产地、交通表包含矿种、矿产地及其地理坐标(经纬度)、矿床规模代码,内容齐全,可以满足工作需要。使用时将该表转为Excel电子表格形式,经筛选、排序,得出金、银、铜、叶蜡石矿种数据表各一份,并根据矿床规模代码赋予相应的编码。编码时既要反映不同矿床规模成矿信息的差异,又要体现矿点、矿化点的找矿意义。将赋值后的矿产地数据转为txt文本格式,在记事本中将其经纬度坐标由度分秒单位转为以度为单位。在Idrise3.5软件上读入文本数据,形成*.vct矢量文件,转换成平面投影后,按30m的分辨率转为栅格文件(以确保每个矿产地均有数据保留),然后按3000m的网格重采样(网格数据以网格内所有数据的平均值代替),得到统一规格的矿产地栅格数据*.rst文件。在ENVI软件中按行列数读入*.rst文件,经线性拉伸,转换平面投影为高斯-克吕格投影,设置为统一的投影参数后,得到标准ENVI影像数据*.img文件。为了数据显示的需要,另将转成平面投影后的矿产地数据*.vct矢量文件转成dxf格式导出,在ENVI软件中转换平面投影为高斯-克吕格投影,同样设置统一的投影参数后,形成标准ENVI矢量文件*.evf。
Ⅷ 地质剖面数据预处理
地质剖面数据实质上是地层构造线的集合。过去,地质剖面是由人工绘制,直到近些年来才直接在计算机上绘制。像矿山工程,通常拥有几十年乃至上百年的开采历史,拥有大量早期人工绘制的地质剖面,由于信息化管理的需要,地质剖面经过扫描转化为数字信息存入计算机。这种扫描转化过来的地质剖面在表达地质特征时是像素级(图4.6a),不符合数字地质建模的要求,必须进行一定的预处理。
图4.6 特征点提取
地层线的预处理过程是数字曲线上特征点的提取过程(图4.6b),所谓特征点是数字曲线上的高曲率点和曲线变化的关键点(樊宏斌等,2002),它包含着物体形状的重要信息。物体的形状特征在图像处理、模式识别及计算机辅助设计等多个领域有着广泛的应用。
通过设置阈值(threshold)的方法可实现地层线的数据预处理。其基本思想如图4.7所示,以起始点a及与它相邻接的第一个点b组成中轴线,给定一个阈值l,以a、b点所在的直线为中轴线,以l为宽度求出它的上下界限,然后判断b点以后的点序列。依次计算这些点到条带的中轴线距离,如果点的距离大于l,如图4.7中的e点,以它的前一个点d与第一个点a组成的直线段代替由ab、bc、cd组成的曲线;接着以d为起始点,取de为中轴线,按照同样的方法依次对后序点集中的点进行选取,直到全部的点被筛选完为止。最后所选取的点集合就是所要的结果,图4.6b是处理后的结果。
图4.7 算法原理
Ⅸ 数据预处理的介绍
数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理内面积性观测容数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
Ⅹ 数据预处理的基本介绍
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接回进行数据挖掘,或挖答掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。