什麼是地質數據預處理
Ⅰ 數據預處理
根據掌握資料情況,結合工作實際,確定工作區的比例尺為1∶50萬,為進一步的成礦預測工作,將工作區內所有數據通過變換統一到同一坐標系統下,選用「高斯-克呂格」投影方式,任意分帶,中央經線1150000,最南端緯線為440000。
(1)生成基準經緯網:根據工作的制圖投影方式,利用「生成經緯網」功能,生成工作區的基準經緯網。
(2)生成金礦床(點)圖層:收集的礦產地數據中,各礦產地均有「地理經度」、「地理緯度」數據,由此,利用「生成點圖層」功能,生成礦床(點)分布圖層,投影參數與生成的基準經緯網一致。
(3)數據格式轉換:將數據准備中的MapGIS格式文件轉換為shp格式。
(4)圖層配准:將准備好的各矢量化圖層,通過對圖層的「縮放」、「旋轉」、「平移」等,配准到基準經緯網上。
(5)線性構造方位角統計:對地質斷裂,利用「線走向」功能,統計每條構造線的走向。
(6)統計構造線密度及交叉點數:對遙感解譯構造(包括線形和環形),利用「單元格內線性體交點數」和「單元內實體數」功能,統計構造密度及交叉點數。
(7)線圖層轉為面圖層:對化探異常、重砂異常等線圖層,利用「線面互轉」工具,轉換為面圖層,形成異常區,以供統計預測使用。
(8)岩漿岩圖層:各時代岩漿岩是地質體圖層的組成部分,由於地質上的特殊性,將其檢索出來單獨成層。利用「專用查詢」工具,根據「顏色號(Color-no)」欄位,將各時代岩漿岩檢索出來。
(9)有利地質體圖層:利用點(已知礦床)對區(地質體)的空間分析,得出與金礦產出相關的地質體,利用「專用查詢」→「A.根據給定的字元串查詢」,從地質體圖層中根據「顏色號(Col-or-no)」或「地質符號(Symbel)」或「地質體名稱(Unitname)」欄位,將有利地質體檢索出來。
Ⅱ 什麼是數據預處理(在數據倉庫中的概念)
主要是數據的抽取、轉化、和清理,抽取的話就是從外圍系統或源系統中把數據導入,轉化一般指對數據的進行統一(包括數據格式和數據編碼的統一),清理就是把一些垃圾數據清理掉,保留有用數據。
Ⅲ 什麼是基礎地質數據
為經濟社會發展服務的公益性基礎地質信息,現階段主要包括區域地質調查、回區域地球物理勘查答、區域地球化學勘查、區域遙感地質調查、區域水文地質調查、區域工程地質調查、區域地殼穩定性評價、區域海洋地質調查、大洋和極地地質調查,以及地殼深部探測數據等。
Ⅳ 數據的預處理包括哪些內容
數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理。如對大專部分地球物理屬面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:
1、數據清理
數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標:格式標准化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成
數據集成常式將多個數據源中的數據結合起來並 統一存儲,建立數據倉庫的過程實際上就是數據集成。
3、數據變換
通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。
4、數據歸約
數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。
Ⅳ 什麼是統計數據的預處理
就是說,對數據進行檢驗,看數據是否有缺失值、錯誤值等等。
如果有錯誤值,要修專正。有缺失,視情況插屬補。
數據沒有問題時,稱為clean data ,即干凈數據,然後才能進一步分析。
否則,如果數據有問題,稱為dirty data
Ⅵ 什麼事數據預處理
數據預處理( preprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等
現實世界中數據大體上都是不完整,不一致的臟數據,無法直接進行數據挖掘,或挖掘結果差強人意。為了提高數據挖掘的質量產生了數據預處理技術。 數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。
數據清理
數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標:格式標准化,異常數據清除,錯誤糾正,重復數據的清除。
數據集成
數據集成常式將多個數據源中的數據結合起來並統一存儲,建立數據倉庫的過程實際上就是數據集成。
數據變換
通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。
數據歸約
數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。
目前,數據預處理是目前數據挖掘一個熱門的研究方面,畢竟這是由數據預處理的產生背景所決定的--現實世界中的數據幾乎都臟數據。
Ⅶ 地質礦產數據源的選擇和預處理
10.2.2.1地質數據源的選擇和預處理
工作中所需地質內容取自浙江省1∶50萬地質圖資料庫(1996年版),根據待評價的金、銀、銅、螢石、葉蠟石礦床的區域地質特徵,結合遙感工作實際需要,從中提取地層、侵入岩、斷裂構造三個圖層作為成礦預測的部分信息源。使用前將其(MapGis文件)轉換為ENVI軟體能識別的文件類型,具體步驟如下。
首先在MapGis6.0軟體中將地層、侵入岩、斷裂構造三個圖層按無投影類型方式分別轉換成Mapinfo交換文件,然後將其進一步轉為dxf文件格式,相應屬性數據轉為dmb資料庫格式,最後在ENVI軟體下打開dxf文件,定義其投影類型和投影參數(即原圖的投影類型和投影參數:蘭伯特雙標准緯線等角割圓錐投影,中央經線120°30′,標准緯線分別為28°00′和30°30′),並進一步將其轉為與影像地圖集統一的投影類型(高斯-克呂格投影)和投影參數,形成標准ENVI矢量文件(*.evf)。局部使用1∶20萬麗水幅地質圖資料庫地質內容進行補充,其處理方法同上。
10.2.2.2礦產地數據的選擇和預處理
工作所用礦產數據主要從浙江省礦產地資料庫中提取,該資料庫為Access數據格式。其中的礦產地、交通表包含礦種、礦產地及其地理坐標(經緯度)、礦床規模代碼,內容齊全,可以滿足工作需要。使用時將該表轉為Excel電子表格形式,經篩選、排序,得出金、銀、銅、葉蠟石礦種數據表各一份,並根據礦床規模代碼賦予相應的編碼。編碼時既要反映不同礦床規模成礦信息的差異,又要體現礦點、礦化點的找礦意義。將賦值後的礦產地數據轉為txt文本格式,在記事本中將其經緯度坐標由度分秒單位轉為以度為單位。在Idrise3.5軟體上讀入文本數據,形成*.vct矢量文件,轉換成平面投影後,按30m的解析度轉為柵格文件(以確保每個礦產地均有數據保留),然後按3000m的網格重采樣(網格數據以網格內所有數據的平均值代替),得到統一規格的礦產地柵格數據*.rst文件。在ENVI軟體中按行列數讀入*.rst文件,經線性拉伸,轉換平面投影為高斯-克呂格投影,設置為統一的投影參數後,得到標准ENVI影像數據*.img文件。為了數據顯示的需要,另將轉成平面投影後的礦產地數據*.vct矢量文件轉成dxf格式導出,在ENVI軟體中轉換平面投影為高斯-克呂格投影,同樣設置統一的投影參數後,形成標准ENVI矢量文件*.evf。
Ⅷ 地質剖面數據預處理
地質剖面數據實質上是地層構造線的集合。過去,地質剖面是由人工繪制,直到近些年來才直接在計算機上繪制。像礦山工程,通常擁有幾十年乃至上百年的開采歷史,擁有大量早期人工繪制的地質剖面,由於信息化管理的需要,地質剖面經過掃描轉化為數字信息存入計算機。這種掃描轉化過來的地質剖面在表達地質特徵時是像素級(圖4.6a),不符合數字地質建模的要求,必須進行一定的預處理。
圖4.6 特徵點提取
地層線的預處理過程是數字曲線上特徵點的提取過程(圖4.6b),所謂特徵點是數字曲線上的高曲率點和曲線變化的關鍵點(樊宏斌等,2002),它包含著物體形狀的重要信息。物體的形狀特徵在圖像處理、模式識別及計算機輔助設計等多個領域有著廣泛的應用。
通過設置閾值(threshold)的方法可實現地層線的數據預處理。其基本思想如圖4.7所示,以起始點a及與它相鄰接的第一個點b組成中軸線,給定一個閾值l,以a、b點所在的直線為中軸線,以l為寬度求出它的上下界限,然後判斷b點以後的點序列。依次計算這些點到條帶的中軸線距離,如果點的距離大於l,如圖4.7中的e點,以它的前一個點d與第一個點a組成的直線段代替由ab、bc、cd組成的曲線;接著以d為起始點,取de為中軸線,按照同樣的方法依次對後序點集中的點進行選取,直到全部的點被篩選完為止。最後所選取的點集合就是所要的結果,圖4.6b是處理後的結果。
圖4.7 演算法原理
Ⅸ 數據預處理的介紹
數據預處理(data preprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理內面積性觀測容數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
Ⅹ 數據預處理的基本介紹
現實世界中數據大體上都是不完整,不一致的臟數據,無法直接回進行數據挖掘,或挖答掘結果差強人意。為了提高數據挖掘的質量產生了數據預處理技術。 數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。