亚洲一区亚洲二区亚洲三区,国产成人高清在线,久久久精品成人免费看,999久久久免费精品国产牛牛,青草视频在线观看完整版,狠狠夜色午夜久久综合热91,日韩精品视频在线免费观看

以大規(guī)模數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

時(shí)間:2021-06-28 10:49:03 論文范文 我要投稿

以大規(guī)模數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

  摘 要:基于大規(guī)模數(shù)據(jù)庫(kù)構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的目的在信息化迅速發(fā)展的今天對(duì)數(shù)據(jù)庫(kù)功能實(shí)現(xiàn)更深度的發(fā)掘,促進(jìn)決策者從巨大的數(shù)據(jù)量中迅速、準(zhǔn)確的找到所需的數(shù)據(jù)資源,并基于此來(lái)實(shí)現(xiàn)有效決策。本研究就筆者工作經(jīng)驗(yàn)提出了數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法,期望與同行業(yè)者分享和相互學(xué)習(xí)。

以大規(guī)模數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文

  關(guān)鍵詞:數(shù)據(jù)庫(kù);數(shù)據(jù)挖掘;系統(tǒng)構(gòu)建;大規(guī)模

  數(shù)據(jù)庫(kù)技術(shù)的建立使大量的電子信息得以儲(chǔ)存和抽取,但在浩瀚如煙的數(shù)字式化信息資源庫(kù)中,如何更快、更好的將需要的有效信息提煉和挖掘出來(lái),逐漸成為大規(guī)模數(shù)據(jù)庫(kù)系統(tǒng)的重要課題研究之一[1]。數(shù)據(jù)挖掘技術(shù)是一種在數(shù)據(jù)庫(kù)中提取具有未知性、隱含性、潛在性的有用信息的特殊方法和過(guò)程,包含了關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)、泛化、預(yù)測(cè)等多個(gè)方面,而獲取信息的準(zhǔn)確性、挖掘操作的伸縮性、數(shù)據(jù)分析工具的實(shí)用性等成為近些年的研究熱點(diǎn)。本研究就筆者工作經(jīng)驗(yàn)提出了數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法,期望與同行業(yè)者分享和相互學(xué)習(xí)。

  1.數(shù)據(jù)挖掘系統(tǒng)的功能

  1.1數(shù)據(jù)的泛化與清洗功能

  該數(shù)據(jù)挖掘系統(tǒng)可使已有數(shù)據(jù)泛化至更高的層次,利用GDBR的泛化集成算法將時(shí)間和空間的復(fù)雜度進(jìn)行條件關(guān)聯(lián),并采用N-Gram技術(shù)高效、準(zhǔn)確的對(duì)系統(tǒng)中具有相似性的重復(fù)記錄進(jìn)行檢測(cè)和梳理[2],對(duì)較常見(jiàn)的拼寫(xiě)錯(cuò)誤進(jìn)行規(guī)范的刪除、插入、替換、交換等智能操作,達(dá)到清洗效果。由于常規(guī)的消除基本算法在檢測(cè)的精度方面存在一定的缺陷,本系統(tǒng)對(duì)該消除基本算法進(jìn)行了一定的改進(jìn),合理應(yīng)用統(tǒng)計(jì)學(xué)原理減噪,結(jié)合正、逆雙向的重復(fù)矩陣,加大了對(duì)拼寫(xiě)錯(cuò)誤的檢出率和修改準(zhǔn)確率。

  1.2數(shù)據(jù)的挖掘功能

  該系統(tǒng)對(duì)數(shù)據(jù)的挖掘是在相關(guān)的關(guān)聯(lián)、時(shí)序等規(guī)則下,對(duì)數(shù)據(jù)進(jìn)行有效分類(lèi)、聚類(lèi),達(dá)到期望的數(shù)據(jù)挖掘系統(tǒng)應(yīng)用目的。

  數(shù)據(jù)中具有頻繁性的項(xiàng)集進(jìn)行尋找和整合,實(shí)現(xiàn)Apriori算法,再通過(guò)頻繁的項(xiàng)集形成關(guān)聯(lián)規(guī)則。其方法是:假設(shè)頻繁項(xiàng)集記為l,l中的所有非空子集記為a,若support(l)/support(a)的值超過(guò)min conf,那么規(guī)則a=>(l-a)直接輸出;若l的非空子集不滿足以上條件,即無(wú)法輸出相應(yīng)規(guī)則,則不以a來(lái)形成關(guān)聯(lián)規(guī)則。時(shí)序規(guī)則類(lèi)似于關(guān)聯(lián)規(guī)則,但其更傾向于對(duì)系統(tǒng)內(nèi)項(xiàng)集在時(shí)間上的關(guān)聯(lián)性,該系統(tǒng)應(yīng)用AprioriAll算法來(lái)實(shí)現(xiàn)時(shí)序規(guī)則[3]。

  關(guān)聯(lián)規(guī)則從廣義上而言包含了強(qiáng)規(guī)則、隨機(jī)規(guī)則和例外規(guī)則。例外規(guī)則呈現(xiàn)了小部分?jǐn)?shù)據(jù)所服從的規(guī)則,其雖然數(shù)量不多,但具有高可信度,是對(duì)可預(yù)測(cè)信息以外的、不被我們現(xiàn)階段所知的信息產(chǎn)生的規(guī)則。例外關(guān)聯(lián)規(guī)則可滿足最小可信度的系統(tǒng)設(shè)置,本系統(tǒng)還可由此生成CAR、ECAR和刪除SCAR。

  對(duì)于已經(jīng)有明確定義和分類(lèi)的數(shù)據(jù)信息,可對(duì)其產(chǎn)生具有描述性的數(shù)據(jù)類(lèi)別,也可對(duì)未知類(lèi)別的數(shù)據(jù)產(chǎn)生相應(yīng)的分類(lèi)標(biāo)準(zhǔn),即分類(lèi)器。在本系統(tǒng)中,應(yīng)用了區(qū)間分類(lèi)器,可達(dá)到更高的準(zhǔn)確率和分類(lèi)精度,并減少?zèng)Q策樹(shù)分類(lèi)器可能產(chǎn)生的過(guò)深樹(shù)狀延伸。

  聚類(lèi)算法則是將一些密度較高的簇進(jìn)行合并,采用CURE算法,以多個(gè)代表點(diǎn)標(biāo)記不同的簇,從而形成一定的簇分布框架,再對(duì)特殊形狀進(jìn)行有效識(shí)別,擴(kuò)大數(shù)據(jù)處理量和增強(qiáng)處理能力。層次聚類(lèi)法是該系統(tǒng)主要應(yīng)用的聚類(lèi)方法,在方法啟用前,數(shù)據(jù)挖掘系統(tǒng)會(huì)自動(dòng)將所有信息對(duì)象進(jìn)行數(shù)據(jù)空間分布的劃分,使其形成多個(gè)數(shù)據(jù)單元,并根據(jù)單元特性計(jì)算簇的分布。另一種比較具有特色的聚類(lèi)方法是密度聚類(lèi)法,通過(guò)改進(jìn)Dbscan算法,以代表性鄰居對(duì)象的擴(kuò)展種子點(diǎn)選取加快算法速度、以較小分區(qū)聚類(lèi)來(lái)實(shí)現(xiàn)數(shù)據(jù)分區(qū)、以取樣數(shù)據(jù)聚類(lèi)來(lái)實(shí)現(xiàn)整個(gè)數(shù)據(jù)庫(kù)的聚類(lèi),實(shí)現(xiàn)更加有效的系統(tǒng)聚類(lèi)運(yùn)算。

  2.數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法

  2.1整體框架結(jié)構(gòu)

  該系統(tǒng)把各類(lèi)相關(guān)模塊進(jìn)行緊密的結(jié)合,并形成具有層次性的數(shù)據(jù)結(jié)構(gòu),包括多數(shù)據(jù)源、多類(lèi)輸出、多種參數(shù)的差別性操作功能,從而實(shí)現(xiàn)各挖掘操作模塊之間的相互獨(dú)立,使系統(tǒng)的功能性更強(qiáng)、運(yùn)行更穩(wěn)定。但作為一個(gè)系統(tǒng)整體,各模塊間又存在著協(xié)調(diào)統(tǒng)一的相互關(guān)聯(lián)性,使各個(gè)模塊所應(yīng)用的數(shù)據(jù)源、數(shù)據(jù)參數(shù)及挖掘結(jié)果能夠?qū)崿F(xiàn)規(guī)范化、系統(tǒng)性操作。由于該系統(tǒng)擴(kuò)大了數(shù)據(jù)挖掘的范圍,使挖掘?qū)ο蟛粌H存在于數(shù)據(jù)庫(kù)當(dāng)中,還可能存在于相應(yīng)的文件當(dāng)中,故而系統(tǒng)中亦提供了相應(yīng)的文件信息處理方法。為方便挖掘結(jié)果的呈現(xiàn)、并對(duì)決策分析實(shí)現(xiàn)遠(yuǎn)期性的支持,系統(tǒng)還設(shè)置了對(duì)數(shù)據(jù)挖掘結(jié)果的自動(dòng)保留功能,擴(kuò)大了應(yīng)用范圍。當(dāng)然,由于計(jì)算機(jī)的操作者是人,整個(gè)系統(tǒng)還具有友好的操作界面,便于系統(tǒng)的應(yīng)用者和決策者進(jìn)行決策分析,實(shí)現(xiàn)準(zhǔn)確決策。

  2.2模塊設(shè)置

  根據(jù)以上對(duì)本系統(tǒng)框架結(jié)構(gòu)的詮釋?zhuān)貏e設(shè)置了如下模塊以實(shí)現(xiàn)該數(shù)據(jù)挖掘系統(tǒng)的相關(guān)功能。

  挖掘模塊用來(lái)對(duì)數(shù)據(jù)庫(kù)中不同數(shù)據(jù)實(shí)現(xiàn)挖掘操作功能,不同的挖掘模塊相互獨(dú)立,但統(tǒng)一受數(shù)據(jù)庫(kù)的管理模塊控制,其數(shù)據(jù)來(lái)源由存儲(chǔ)控制模塊產(chǎn)生,通過(guò)挖掘?qū)⑾鄳?yīng)數(shù)據(jù)寫(xiě)入到挖掘庫(kù)中,為其它模塊提供數(shù)據(jù)依據(jù)。

  預(yù)處理模塊以數(shù)據(jù)源定義、格式化、過(guò)濾等為主要功能,使整個(gè)系統(tǒng)更具有實(shí)用性和操作性,其中以數(shù)據(jù)映射、類(lèi)型映射和列映射為主要子模塊。數(shù)據(jù)映射是將源表數(shù)據(jù)映射成為ID形式[4],再生成相應(yīng)的對(duì)照表,使形式不同的數(shù)據(jù)通過(guò)映射形成統(tǒng)一的、具有挖掘性的模塊形式。類(lèi)型映射是對(duì)源數(shù)據(jù)進(jìn)行類(lèi)型的轉(zhuǎn)換,這種轉(zhuǎn)換具有強(qiáng)制性,使不同類(lèi)型的數(shù)據(jù)庫(kù)數(shù)據(jù)形成統(tǒng)一,便于挖掘。列映射從源數(shù)據(jù)中提取需要的列,便于減少數(shù)據(jù)量、加速運(yùn)算速度。

  存儲(chǔ)控制模塊是對(duì)整個(gè)數(shù)據(jù)庫(kù)中的各數(shù)據(jù)進(jìn)行統(tǒng)一的`操作,而外部文件則需要先行導(dǎo)入后再進(jìn)行存儲(chǔ)控制。底層接口采用ODBC技術(shù),并應(yīng)用緩沖和內(nèi)存索引功能來(lái)加速系統(tǒng)的運(yùn)算能力。

  挖掘管理模塊是整個(gè)數(shù)據(jù)挖掘系統(tǒng)的核心模塊,對(duì)于用戶在數(shù)據(jù)庫(kù)中挖掘到的各類(lèi)信息結(jié)果,均利用挖掘庫(kù)進(jìn)行存放。挖掘庫(kù)直接設(shè)立在系統(tǒng)數(shù)據(jù)庫(kù)當(dāng)中,便于管理和調(diào)用。挖掘庫(kù)管理包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和數(shù)據(jù)存放過(guò)程中的各類(lèi)操作,這些操作信息在挖掘庫(kù)中的存放具有順序性,有利于操作的便捷。但是,數(shù)據(jù)挖掘操作在整個(gè)挖掘過(guò)程中具有非獨(dú)立性,需要以另一個(gè)數(shù)據(jù)挖掘操作結(jié)果為源頭,并生成新的挖掘結(jié)果,而這一新結(jié)果很可能又成為另一個(gè)挖掘過(guò)程的數(shù)據(jù)源頭。

  2.3界面設(shè)置

  該系統(tǒng)的主界面類(lèi)似于Explorer的界面風(fēng)格,具有人性化、可操作性、美觀等特點(diǎn)。利用不同的圖形技術(shù)來(lái)對(duì)不同挖掘結(jié)果進(jìn)行表述。系統(tǒng)應(yīng)用表格來(lái)表示泛化及清洗結(jié)果,利用樹(shù)狀結(jié)構(gòu)來(lái)對(duì)決策樹(shù)進(jìn)行呈現(xiàn),用二維和三維點(diǎn)來(lái)對(duì)聚類(lèi)結(jié)果進(jìn)行顯示,用文本顯示各類(lèi)規(guī)則與模式。

  3.結(jié)語(yǔ)

  目前基于大規(guī)模數(shù)據(jù)庫(kù)構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的研究較多,目的在信息化迅速發(fā)展的今天對(duì)數(shù)據(jù)庫(kù)功能實(shí)現(xiàn)更深度的發(fā)掘,促進(jìn)決策者從巨大的數(shù)據(jù)量中迅速、準(zhǔn)確的找到所需的數(shù)據(jù)資源,并基于此來(lái)實(shí)現(xiàn)有效決策。在本文的相關(guān)介紹中,筆者僅對(duì)某數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法進(jìn)行了簡(jiǎn)單介紹,由于目前相關(guān)的數(shù)據(jù)集成系統(tǒng)越來(lái)越多的被發(fā)布和認(rèn)可,建議有效應(yīng)用如Quest、DBMiner等的優(yōu)點(diǎn),并進(jìn)一步行系統(tǒng)改進(jìn),結(jié)合企業(yè)的特點(diǎn)和需求進(jìn)行數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建,從而達(dá)到更好的經(jīng)濟(jì)和應(yīng)用效益。

  參考文獻(xiàn):

  [1]廣西科學(xué)院學(xué)報(bào),2010,26(4):520-522.

【以大規(guī)模數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)建論文】相關(guān)文章:

1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的集成數(shù)據(jù)庫(kù) -電腦資料01-01

基于GIS的基礎(chǔ)數(shù)據(jù)庫(kù)管理系統(tǒng)07-11

數(shù)據(jù)挖掘論文09-24

數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)管理系統(tǒng)跟數(shù)據(jù)庫(kù)系統(tǒng)的區(qū)別01-15

大數(shù)據(jù)崛起與數(shù)據(jù)挖掘分析論文11-28

數(shù)據(jù)挖掘技術(shù)的研究論文01-22

分布式大規(guī)模數(shù)據(jù)庫(kù)系統(tǒng) HadoopDB 簡(jiǎn)介 -電腦資料01-01

MQ對(duì)民航氣象數(shù)據(jù)庫(kù)系統(tǒng)的應(yīng)用論文11-29

工程項(xiàng)目管理系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)論文01-21