- 相關(guān)推薦
探究數(shù)據(jù)挖掘技術(shù)在水利工程管理論文
1 引 言
我國長期以來興建了一大批水利工程,初步形成了具有防洪、排澇、灌溉、供水、發(fā)電、養(yǎng)殖、種植、旅游等功能要素的水利工程體系,為國民經(jīng)濟的高速發(fā)展發(fā)揮了巨大的基礎(chǔ)作用和支撐作用。 在水利工程建設(shè)取得輝煌成就的同時,人們逐漸意識到我們在水利工程的管理上還存在著手段比較落后,重建輕管、水利資源利用率低等突出問題,致使一大批水利工程不能發(fā)揮其價值,或者工程壽命大大縮短。 穆范橢 等分別從制度管理、機制管理、人力資源管理等幾個方面對水利工程管理中存在的問題進行了論述,并提出了不少可行性的解決措施。 不可否認(rèn),水利工程管理中出現(xiàn)的問題,不少是制度上的問題,但水利工程管理有其特殊性、復(fù)雜性,需要廣博的知識和高超的技術(shù),單純靠“軟管理”是不能從根本上解決問題的,必須借助一些現(xiàn)代化的信息手段來輔助進行決策和管理, 才能夠更好、更科學(xué)地解決問題。
近年來,在水利工程信息化的過程中,我國建設(shè)了一大批水利工程管理信息系統(tǒng),對于水利工程的建設(shè)和運行管理起到了很好的幫助作用。 但是,這些系統(tǒng)所提供的功能大多是業(yè)務(wù)型的,很少面向管理決策。 隨著水利工程管理向現(xiàn)代化縱深發(fā)展, 這些系統(tǒng)遠遠滿足不了人們的需要。 另一方面,水利工程管理信息系統(tǒng)在發(fā)展過程中積累了海量的數(shù)據(jù),不少是空間類型的數(shù)據(jù),而且這些數(shù)據(jù)還在不斷地增長,而相比于數(shù)據(jù)的生產(chǎn)、運輸和累積能力,人類對空間數(shù)據(jù)的分析能力還很落后 。 人們雖然深知這些海量數(shù)據(jù)中蘊含了很多有價值的知識,但是不知道如何利用它們, 而依靠傳統(tǒng)的信息系統(tǒng)是解決不了這些問題的。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)為這些問題的解決帶來了可能。 所謂數(shù)據(jù)挖掘,就是從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的知識的過程。 傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和方法一般作用于非空間數(shù)據(jù),而水利工程管理方面的數(shù)據(jù)不但有非空間數(shù)據(jù),還有大量的空間數(shù)據(jù)。 和非空間數(shù)據(jù)相比,空間數(shù)據(jù)除了具備非空間數(shù)據(jù)的特征外,還有拓撲、方位和距離等非空間特征,因此其挖掘技術(shù)的實現(xiàn)有其特殊性。 在武漢大學(xué)李德仁院士首次提出空間數(shù)據(jù)挖掘這一概念后,國內(nèi)外不少學(xué)者為此開展了廣泛的研究。
2 空間數(shù)據(jù)挖掘在水利工程管理中應(yīng)用需要解決的主要問題
水利工程管理信息系統(tǒng)中存在著大量的空間數(shù)據(jù),因此需要采用空間數(shù)據(jù)挖掘技術(shù)。 和一般的空間數(shù)據(jù)挖掘系統(tǒng)相比,對水利工程數(shù)據(jù)的挖掘需要考慮其歷史發(fā)展因素和特殊性。 首先,水利工程是一個系統(tǒng)工程,其有效管理往往需要多領(lǐng)域、多部門的專家相互協(xié)作,一項重要決策的做出往往需要對歷史數(shù)據(jù)從各種維度進行分析,反復(fù)考慮各種因素,綜合各個專家的意見才能形成,而不同的專家和決策者會從不同的角度來分析數(shù)據(jù),因此對水利工程數(shù)據(jù)的挖掘需要交互探查或查詢驅(qū)動的方法,在技術(shù)實現(xiàn)上需要采用數(shù)據(jù)倉庫和數(shù)據(jù)立方體支持這種探查式的、快速的聯(lián)機查詢和分析。 其次,在用的水利工程信息系統(tǒng)的主體是 GIS (Geographical Information System, 地理信息系統(tǒng)),大部分的空間數(shù)據(jù)是由 GIS 系統(tǒng)生成的,空間數(shù)據(jù)的查詢、計算、分析和可視化顯示是一種復(fù)雜的技術(shù),因此如何利用原有的 GIS 系統(tǒng)中的數(shù)據(jù),數(shù)據(jù)挖掘如何和 GIS 集成以進行復(fù)雜的空間數(shù)據(jù)處理成為一個需要解決的重要問題。最后,要實現(xiàn)水利工程的數(shù)據(jù)挖掘,需要建立一個數(shù)據(jù)挖掘系統(tǒng)模型,模型在系統(tǒng)工程的研究、設(shè)計和實現(xiàn)中是一個非常重要的問題,一個好的模型對了解系統(tǒng)本質(zhì)特征、揭示系統(tǒng)的規(guī)律起到非常重要的作用,建模也是實現(xiàn)一個工程系統(tǒng)的重要一步。 因此,要想實現(xiàn)空間數(shù)據(jù)挖掘技術(shù)在水利工程管理中的應(yīng)用,這 3 個問題是我們不可回避的、必須研究的核心問題。
3 空間數(shù)據(jù)倉庫
水利工程信息化的過程中產(chǎn)生了海量的數(shù)據(jù),而數(shù)據(jù)倉庫是處理海量數(shù)據(jù)的關(guān)鍵技術(shù),它可以將不同來源的數(shù)據(jù)統(tǒng)一到語義上一致的環(huán)境下。 在水利工程信息系統(tǒng)中除了有豐富的非空間數(shù)據(jù)外,還有大量的空間數(shù)據(jù),如地圖、預(yù)處理過的遙感圖像、視頻等。 空間數(shù)據(jù)與非空間數(shù)據(jù)相比,除了具備傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)的特征外,還攜帶了空間特征,如拓撲、方位、距離等。 “空間數(shù)據(jù)倉庫是面向主題的、集成的、時變的和非易失性的非空間數(shù)據(jù)和空間數(shù)據(jù)的集合”, 用于支持空間數(shù)據(jù)挖掘和與空間數(shù)據(jù)相關(guān)的決策過程。 建立空間數(shù)據(jù)倉庫是一個具有挑戰(zhàn)性的工作,需要解決兩個方面的問題:集成來自異構(gòu)數(shù)據(jù)源和系統(tǒng)的空間數(shù)據(jù);如何在空間數(shù)據(jù)倉庫中實現(xiàn)快速而靈活的聯(lián)機分析處理。
影響水利工程建設(shè)和管理決策的數(shù)據(jù)來源是豐富多樣的,如氣象數(shù)據(jù)庫、蓄滯洪區(qū)空間分布式社會經(jīng)濟數(shù)據(jù)庫、雨情和水情數(shù)據(jù)庫、水旱災(zāi)情數(shù)據(jù)庫等,它們往往存在于異構(gòu)的環(huán)境中,可能來自于不同的系統(tǒng),數(shù)據(jù)格式多種多樣。 數(shù)據(jù)格式不僅與特定的結(jié)構(gòu)有關(guān),如光柵格式和矢量格式,而且與特定的廠家有關(guān)。 為了能夠進行空間數(shù)據(jù)的分析和處理, 需要首先對這些異構(gòu)的數(shù)據(jù)進行清洗、變換和集成,以清晰一致的格式存放在數(shù)據(jù)倉庫中,然后可以調(diào)用相應(yīng)的數(shù)據(jù)挖掘算法獲取有用的知識。 空間數(shù)據(jù)倉庫已成為聯(lián)機數(shù)據(jù)分析處理和數(shù)據(jù)挖掘必不可缺的平臺。利用空間數(shù)據(jù)倉庫技術(shù), 可以對異構(gòu)的各類信息進行過濾、集中和綜合,完成水情信息采集、工情信息采集、防汛抗旱信息等水利工程信息的自動接收、處理等功能,在此基礎(chǔ)上可以進行汛情分析、暴雨洪水預(yù)報、調(diào)度、災(zāi)情評估以及旱情預(yù)測等知識發(fā)現(xiàn)功能。
空間數(shù)據(jù)倉庫、OLAP(On-Line Analytic Process,聯(lián)機分析處理)和 OLAM(On-Line Analytic Mining,聯(lián)機分析挖掘)的實現(xiàn)基于多維數(shù)據(jù)模型,這種模型圍繞中心主題組織數(shù)據(jù),將數(shù)據(jù)看作數(shù)據(jù)立方體的形式。 數(shù)據(jù)立方體允許從多維對數(shù)據(jù)建模和觀察,它由維和事實來定義。 數(shù)據(jù)倉庫有星型模式、雪花型模式或事實星座型模式。 在這 3 種結(jié)構(gòu)中,星型模式提供了簡潔而有組織的倉庫結(jié)構(gòu),便于進行 OLAP 和 OLAM 操作,所以是空間數(shù)據(jù)倉庫建模的好選擇。相比于傳統(tǒng)的數(shù)據(jù)立方體,空間數(shù)據(jù)立方體中存在 3種類型的維:非空間維、空間到非空間維和空間到空間維;有兩種不同的度量:數(shù)值度量和空間度量 。
4 水利工程
GIS 系統(tǒng)與數(shù)據(jù)挖掘系統(tǒng)結(jié)合的方式水利工程的建設(shè)和管理與其所在地的地形、 地質(zhì)、社會、經(jīng)濟以及河流的水文等空間要素有關(guān),而 GIS 善于處理和分析空間信息,因此大多水利工程在信息系統(tǒng)中采用了 GIS 技術(shù)。 GIS 是空間數(shù)據(jù)庫發(fā)展的主體。 GIS 中含有大量的空間和屬性數(shù)據(jù),有著比一般關(guān)系數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫更加豐富和復(fù)雜的語義信息, 隱藏著豐富的知識。
空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù),一方面可使 GIS 查詢和分析技術(shù)提高到發(fā)現(xiàn)知識的新階段,另一方面從中發(fā)現(xiàn)的知識可構(gòu)成知識庫用于建立智能化的 GIS 系統(tǒng),同時也將促進 3S(GIS/RS/GPS)的智能化集成,因此很有必要探討GIS 系統(tǒng)與數(shù)據(jù)挖掘系統(tǒng)的結(jié)合方式。 當(dāng)數(shù)據(jù)挖掘系統(tǒng)工作在一個需要與其他信息系統(tǒng)成分通信的環(huán)境下,可以采用不耦合、松散耦合、半緊密耦合和緊密耦合 4 種方案。 不耦合方案雖然簡單,但缺點不少,是一種非常糟糕的設(shè)計。 雷寶龍和李春梅提出了 GIS 與空間數(shù)據(jù)挖掘集成的3 種模式:松散耦合式、嵌入式和混合型空間模型法。在此基礎(chǔ)上對上述 3 種模式進行了改進,以適合于水利工程 GIS 系統(tǒng)和空間數(shù)據(jù)挖掘系統(tǒng)的集成。
4.1 嵌入式
嵌入式是將數(shù)據(jù)挖掘系統(tǒng)融入到 GIS 中,也就是說系統(tǒng)既是一個 GIS 系統(tǒng),又是一個數(shù)據(jù)挖掘系統(tǒng)。 嵌入式的優(yōu)點是可以充分利用 GIS 系統(tǒng)所提供的空間數(shù)據(jù)處理和分析功能來開發(fā)數(shù)據(jù)挖掘系統(tǒng), 減少了開發(fā)的工作量,降低了開發(fā)的難度;其缺點是數(shù)據(jù)挖掘功能被限制在特定的GIS 系統(tǒng)中,難以移植到其他的 GIS 系統(tǒng)上,而且這種方式會因為考慮到一種用戶的需求,而限制另一部分用戶的需求,從而使系統(tǒng)功能的開發(fā)受到限制。
4.2 松散耦合式
在松散耦合式下,數(shù)據(jù)挖掘系統(tǒng)和 GIS 系統(tǒng)實際上是兩個獨立的系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)從 GIS 中獲取空間數(shù)據(jù)和屬性數(shù)據(jù),經(jīng)過清洗、過濾和變換后存入自身的數(shù)據(jù)庫或數(shù)據(jù)倉庫中,數(shù)據(jù)挖掘所進行的其他工作與 GIS 系統(tǒng)沒有任何聯(lián)系。 這種模式的優(yōu)點是數(shù)據(jù)挖掘系統(tǒng)不依賴于特殊的 GIS 系統(tǒng),可以開發(fā)出獨立的、相對通用的空間數(shù)據(jù)挖掘系統(tǒng);缺點是在數(shù)據(jù)挖掘系統(tǒng)中要融入復(fù)雜的空間數(shù)據(jù)的處理,系統(tǒng)開發(fā)的難度很高。 4.3 緊密耦合式緊密耦合式克服了嵌入式和松散耦合式的缺點,既充分利用了原有 GIS 的處理空間數(shù)據(jù)的強大功能,降低了開發(fā)的難度, 又不受制于原有 GIS 系統(tǒng)的用戶需求的制約,具有較大的靈活性,提供了相對獨立的數(shù)據(jù)挖掘功能。 其缺點是和原來系統(tǒng)聯(lián)系密切,開發(fā)的數(shù)據(jù)挖掘系統(tǒng)往往依賴于 GIS 系統(tǒng)。
在這 3 種結(jié)合方式中, 緊密耦合式有著明顯的優(yōu)點,是建立水利工程數(shù)據(jù)挖掘系統(tǒng)優(yōu)先考慮的方式。
5 水利工程數(shù)據(jù)挖掘系統(tǒng)模型
文獻介紹了國外幾個相對比較成熟的空間數(shù)據(jù)挖掘系統(tǒng):GeoMiner、MultiMediaMiner、SKICAT 等, 然后提出了作者領(lǐng)導(dǎo)的空間數(shù)據(jù)挖掘團隊研究和開發(fā)的兩種空間數(shù)據(jù)挖掘原形系統(tǒng) GISDBMiner 和 RSImageMiner,并提出了 GIS 空間數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)。 文獻介紹了現(xiàn)有的數(shù)據(jù)挖掘模型:OLAM 模型和影響域模型,以及 GeoMiner 原型系統(tǒng)的體系結(jié)構(gòu),最后提出了一個基于空間立方體的數(shù)據(jù)挖掘模型。 文獻提到了 Han 提出的通用數(shù)據(jù)采掘原型 DBLEARN/DBMINER、Holsheimer 等人提出的并行體系結(jié)構(gòu),以及 Matheus 等人提出的多組件體系結(jié)構(gòu),并重點介紹了 Matheus 等人的多組件體系結(jié)構(gòu)。水利工程管理決策大多是復(fù)雜的非結(jié)構(gòu)化決策,需要進行探查性或查詢驅(qū)動型的數(shù)據(jù)挖掘,以方便不同的決策者和專家從不同的領(lǐng)域或角度進行數(shù)據(jù)探查和分析。 一般情況下,在挖掘過程中需要進行人機的多次對話,然后結(jié)合人類專家的隱性知識,才能夠發(fā)現(xiàn)有價值的知識。 因此自動化的挖掘方法不適合于水利工程數(shù)據(jù)挖掘。
模型分為 4 層,分別為數(shù)據(jù)存儲層、多維數(shù)據(jù)庫與數(shù)據(jù)倉庫層、OLAP/OLAM 層、用戶界面層。 第一層數(shù)據(jù)存儲層的數(shù)據(jù)主要來源于水利工程數(shù)據(jù)庫和相關(guān)的異構(gòu)數(shù)據(jù)庫,元數(shù)據(jù)用于指導(dǎo)數(shù)據(jù)的清理、過濾和集成,是構(gòu)建水利工程數(shù)據(jù)倉庫重要的技術(shù)手段。 第一層的數(shù)據(jù)經(jīng)過變換和集成后,存儲到數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中,它們是實現(xiàn)第三層 OLAP/OLAM 分析所需要的重要的數(shù)據(jù)源。 該模型的核心是 OLAP/OLAM, 它們是支持探查性知識發(fā)現(xiàn)的核心技術(shù)。 第四層是用戶界面層,用來幫助用戶實現(xiàn)基于約束的挖掘查詢,并將挖掘結(jié)果顯示給用戶。
6 空間挖掘可以采用的方法與發(fā)現(xiàn)的知識類型
數(shù)據(jù)挖掘在水利工程管理上的應(yīng)用,不僅可以建設(shè)智能型的 GIS 系統(tǒng),促進遙感技術(shù)和 GIS 技術(shù)的深入應(yīng)用,還可以從數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的知識或規(guī)則,用于指導(dǎo)水利工程的建設(shè)和管理。 一般來說,傳統(tǒng)的數(shù)據(jù)挖掘方法如統(tǒng)計、分類、聚類等都可用于空間數(shù)據(jù)挖掘,但我們不能簡單地把這些方法直接應(yīng)用在空間數(shù)據(jù)的挖掘上 。一方面, 因為空間數(shù)據(jù)除了具備一般非空間數(shù)據(jù)的特征外,還具備拓撲、方位、距離等空間特征;另一方面,傳統(tǒng)的數(shù)據(jù)挖掘算法一般假定數(shù)據(jù)對象統(tǒng)計不相關(guān)、相鄰的數(shù)據(jù)對象是獨立產(chǎn)生的,而空間數(shù)據(jù)的相鄰對象間存在著關(guān)聯(lián)和相互影響,因此需要對原有的方法進行改進,使得數(shù)據(jù)挖掘方法適合于地理空間數(shù)據(jù)的挖掘。 在空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)中可采用的方法主要有:統(tǒng)計方法、歸納方法、聚類方法、空間分析方法、探測性的數(shù)據(jù)分析、Rough 集方法、云理論、圖像分析和模式識別等。 能發(fā)現(xiàn)的知識類型有:(1)普遍的幾何知識,如計算和統(tǒng)計出空間目標(biāo)幾何特征量的最小值、最大值、均值、方差、眾數(shù)等;(2)空間分布規(guī)律,如機井、水庫的分布規(guī)律。 能發(fā)現(xiàn)的規(guī)則有:(1)空間關(guān)聯(lián)規(guī)則,如地下水與降雨量的關(guān)系,河水質(zhì)量與污染企業(yè)分布的關(guān)系;(2)空間的聚類規(guī)則;(3)空間演變規(guī)則,如水庫泥沙淤積的演變規(guī)律, 河道周圍生態(tài)的演變規(guī)律。需要注意的是,為了便于理解空間數(shù)據(jù)、發(fā)現(xiàn)空間聯(lián)系、發(fā)現(xiàn)空間數(shù)據(jù)與非空間數(shù)據(jù)之間的關(guān)系,應(yīng)重視可視化的方法在水利工程數(shù)據(jù)挖掘過程和挖掘結(jié)果的使用。
7 結(jié) 語
利用空間數(shù)據(jù)挖掘技術(shù),對具有空間特征的水利工程數(shù)據(jù)進行分析,能夠發(fā)現(xiàn)潛在有價值的知識,利用這些知識,能夠降低工程管理的成本,有效利用建設(shè)和維護資金,更好地發(fā)揮水利工程的效益,為水利工程的管理決策提供依據(jù)。 要實現(xiàn)數(shù)據(jù)挖掘技術(shù)在水利工程中的應(yīng)用,必須研究和解決數(shù)據(jù)倉庫和數(shù)據(jù)立方體的應(yīng)用、 數(shù)據(jù)挖掘與 GIS集成和水利工程數(shù)據(jù)挖掘系統(tǒng)模型 3 個核心問題。 本文對這 3 個問題進行了探討,認(rèn)為數(shù)據(jù)倉庫是水利工程數(shù)據(jù)挖掘的基礎(chǔ), 宜采用緊密耦合式結(jié)構(gòu)與 GIS 系統(tǒng)進行集成,在挖掘模型上可以采用基于 OLAP 和 OLAM 的 4 層框架。
【探究數(shù)據(jù)挖掘技術(shù)在水利工程管理論文】相關(guān)文章:
數(shù)據(jù)挖掘論文04-29
水利工程地基處理技術(shù)探究論文04-27
網(wǎng)絡(luò)營銷中數(shù)據(jù)挖掘技術(shù)的應(yīng)用論文11-27
數(shù)據(jù)挖掘技術(shù)在軟件工程的運用工程論文04-27
軟件工程數(shù)據(jù)挖掘開發(fā)測試技術(shù)論文04-27
數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用04-29
數(shù)據(jù)挖掘04-29