亚洲一区亚洲二区亚洲三区,国产成人高清在线,久久久精品成人免费看,999久久久免费精品国产牛牛,青草视频在线观看完整版,狠狠夜色午夜久久综合热91,日韩精品视频在线免费观看

基于云計算的數(shù)據(jù)挖掘技術(shù)探討論文

時間:2023-05-02 06:06:36 論文范文 我要投稿
  • 相關(guān)推薦

基于云計算的數(shù)據(jù)挖掘技術(shù)探討論文

  1、前言

基于云計算的數(shù)據(jù)挖掘技術(shù)探討論文

  毫無疑問,21世紀(jì)10年代,已經(jīng)是不折不扣的信息時代,或者也可以稱之為數(shù)據(jù)時代。隨著計算機(jī)的發(fā)展,網(wǎng)絡(luò)的快速普及,尤其是移動互聯(lián)網(wǎng)在近年來的蓬勃發(fā)展,數(shù)據(jù)量、信息量無時無刻不在海量增長著。目前,面對海量的信息,找出自己真正感興趣的內(nèi)容已經(jīng)成為用戶最為頭疼的事情,數(shù)據(jù)挖掘已經(jīng)成為當(dāng)前最為熱門的技術(shù)領(lǐng)域。近年來,云計算成為廣受關(guān)注的技術(shù)領(lǐng)域,也使得數(shù)據(jù)挖掘平臺有了新的發(fā)展方向,構(gòu)建新一代的數(shù)據(jù)挖掘平臺來應(yīng)對數(shù)據(jù)的日趨復(fù)雜龐大成為可能。云計算實為傳統(tǒng)計算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)融合的產(chǎn)物。云計算并非簡單的計算,它是新型計算方式、數(shù)據(jù)存儲方式、備份方式、網(wǎng)絡(luò)資源分配方式的綜合體,是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是建立在數(shù)據(jù)庫之上的,是通過對已收集數(shù)據(jù)信息的計算,找出隱藏在不同數(shù)據(jù)中的相關(guān)信息。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)需要在海量數(shù)據(jù)的基礎(chǔ)上進(jìn)行大量的數(shù)據(jù)訪問與統(tǒng)計計算,在對數(shù)據(jù)進(jìn)行挖掘的過程中需要消耗及占用大量的計算以及存儲資源,面對規(guī)模不斷增長的海量數(shù)據(jù),需要消耗及占用大量計算及存儲資源的傳統(tǒng)數(shù)據(jù)挖掘技術(shù)顯得越來越力不從心,難以勝任。而云計算獨特的計算模式,為海量數(shù)據(jù)的挖掘提供了一種新的解決方案。

  2、云計算與數(shù)據(jù)挖掘

  2.1云計算。云計算是基于互聯(lián)網(wǎng)的一種商業(yè)計算模式,對于云計算的定義,目前并沒有一個統(tǒng)一的說法,現(xiàn)階段廣為人接受的是美國國家標(biāo)準(zhǔn)與技術(shù)研究院對云計算所做出的定義,即:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。從云計算的定義我們可以知道,云計算擁有可配置的、大型的計算資源共享池,這種資源共享池包括了網(wǎng)絡(luò)、服務(wù)器、存儲器、應(yīng)用軟件以及服務(wù)。那也就是說,云計算就是對計算資源共享池的一種資源分配技術(shù)或服務(wù),它的特點是可以快速提供這些計算資源,可以減少客戶的管理工作。云計算將計算任務(wù)分布在了由大量計算機(jī)或服務(wù)器構(gòu)成的共享資源池上,大大提高了資源的有效利用,使計算處理能力以及存儲能力等得到了提高,并且具有更好的擴(kuò)展性。云計算具有虛擬化的特點,用戶不再受到地理位置以及終端設(shè)備的限制,只要接入互聯(lián)網(wǎng),即可獲取所請求的應(yīng)用服務(wù),也就是說,用戶只需要擁有一臺可以接入互聯(lián)網(wǎng)的終端設(shè)備,即可獲利所需要的各種應(yīng)用服務(wù);云計算擁有通用性的特點,云平臺可以構(gòu)造出千萬種應(yīng)用,用戶沒有應(yīng)用限制,在同一個云平臺即可運行不同的應(yīng)用;云計算具有超大規(guī)模以及高擴(kuò)展性的特點,對于云計算來說,云的規(guī)模擴(kuò)展不會影響用戶應(yīng)用服務(wù)的質(zhì)量,而目前,云計算的規(guī)模已經(jīng)發(fā)展出了超大型,如谷歌的云計算已經(jīng)擁有了上百萬臺的服務(wù)器;云計算擁有高可靠性以及經(jīng)濟(jì)性好的特點,多副本容錯、多計算節(jié)點同構(gòu)可互換等技術(shù)確保了服務(wù)的高可靠性,而云計算采用廉價的節(jié)點構(gòu)成云,自動化集中式管理相較于企業(yè)傳統(tǒng)的數(shù)據(jù)中心管理成本來說,經(jīng)濟(jì)性能十分優(yōu)越。

  2.2數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟,數(shù)據(jù)挖掘又被稱為數(shù)據(jù)采礦,顧名思義,數(shù)據(jù)挖掘就是在已有的海量數(shù)據(jù)中通過特定的算法來挖掘、發(fā)現(xiàn)有用信息或知識的過程。數(shù)據(jù)挖掘是為了解決需求的問題,也是為了解決數(shù)據(jù)管理的問題。數(shù)據(jù)挖掘?qū)τ谛畔a(chǎn)業(yè)界來說,是產(chǎn)生價值的關(guān)鍵環(huán)節(jié),只有將數(shù)據(jù)轉(zhuǎn)馮波換成具有應(yīng)用價值的信息或是知識,才能具有實在商業(yè)價值。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是建立在數(shù)據(jù)庫的基礎(chǔ)之上的,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持,而高性能的計算技術(shù)是對海量數(shù)據(jù)進(jìn)行處理的關(guān)鍵支撐,在處理效率方面具有重要影響。隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大以及移動互聯(lián)網(wǎng)的興趣,數(shù)據(jù)規(guī)模呈現(xiàn)更快的增長速度,而對于數(shù)據(jù)挖掘的需求也日益增多,這使得傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)暴露出一些問題,首先是數(shù)據(jù)挖掘效率的問題,傳統(tǒng)的基于數(shù)據(jù)庫的數(shù)據(jù)挖掘技術(shù)在面對如今海量數(shù)據(jù)的增長規(guī)模已經(jīng)很難高效的完成計算分析任務(wù);其次,面對海量數(shù)據(jù)規(guī)模的增長,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)需要更高的軟硬件成本的支持,這種成本的支撐面對數(shù)據(jù)量的大規(guī)模增長是長期性的;第三,傳統(tǒng)的基于數(shù)據(jù)系統(tǒng)的數(shù)據(jù)挖掘技術(shù)平臺架構(gòu),已經(jīng)無法為挖掘算法能力的提升提供更多支持,算法受限于系統(tǒng)架構(gòu)影響了數(shù)據(jù)挖掘技術(shù)的發(fā)展。

  3、基于云計算的數(shù)據(jù)挖掘關(guān)鍵技術(shù)

  云計算的出現(xiàn)為數(shù)據(jù)挖掘技術(shù)的發(fā)展提供了新的方向,數(shù)據(jù)挖掘技術(shù)基于云計算可以發(fā)展出新的模式,就具體的實現(xiàn)來說,其中幾個關(guān)鍵技術(shù)的發(fā)展至關(guān)重要。

  3.1云計算技術(shù)。分布式計算是云計算平臺的關(guān)鍵技術(shù),是目前應(yīng)對海量數(shù)據(jù)挖掘任務(wù),提高數(shù)據(jù)挖掘效率的有效手段之一。分布式計算包含分布式存儲和并行計算兩方面內(nèi)容,分布式存儲有效解決了海量數(shù)據(jù)的存儲問題,實現(xiàn)了數(shù)據(jù)存儲高容錯、高安全、高性能等關(guān)鍵功能。目前,谷歌提出的分布式文件系統(tǒng)理論是業(yè)界流行的分布式文件系統(tǒng)的基礎(chǔ),谷歌文件系統(tǒng)(GFS)就是為了解決其海量數(shù)據(jù)的存儲、搜索與分析等問題而研發(fā)的,其它如Hadoop分布式文件系統(tǒng)(HDFS)、Kosmos文件系統(tǒng)(KFs)是基于Goolgle分布式文件系統(tǒng)理論進(jìn)行研發(fā)的開源系統(tǒng)。分布式并行計算框架是高效完成數(shù)據(jù)挖掘計算任務(wù)的關(guān)鍵。目前流行的一些分布式并行計算框架都對分布式計算的一些技術(shù)細(xì)節(jié)進(jìn)行了封裝,這樣用戶只需要考慮任務(wù)間的邏輯關(guān)系,而不用再過多的關(guān)注這些技術(shù)細(xì)節(jié),不僅大大提高了研發(fā)的效率,而且還可以有效的降低系統(tǒng)維護(hù)的成本。典型的分布式并行計算框架如谷歌提出的MapReduce并行計算框架、Pregel迭代處理計算框架等。目前業(yè)界開源的云計算平臺Hadoop平臺,包含HDFS和MapReduce,為海量數(shù)據(jù)挖掘平臺提供完備的云計算平臺支撐平臺。

  3.2數(shù)據(jù)匯集調(diào)度技術(shù)。數(shù)據(jù)匯集調(diào)度技術(shù)需要實現(xiàn)的是對接入云計算平臺的不同類型數(shù)據(jù)的匯集與調(diào)度。數(shù)據(jù)匯集與調(diào)度需要支持不同格式的源數(shù)據(jù),還要提供多種數(shù)據(jù)同步方式。解決不同數(shù)據(jù)的規(guī)約問題是數(shù)據(jù)匯集調(diào)度技術(shù)的任務(wù),技術(shù)解決方案需要考慮對網(wǎng)絡(luò)上不同系統(tǒng)生成的數(shù)據(jù)格式的支持,如聯(lián)機(jī)事務(wù)處理系統(tǒng)(0LTP)數(shù)據(jù)、聯(lián)機(jī)分析處理系統(tǒng)(0LAP)數(shù)據(jù)、各種日志數(shù)據(jù)、爬蟲數(shù)據(jù)等,如此才能實現(xiàn)數(shù)據(jù)的挖掘與分析。

  3.3服務(wù)調(diào)度和服務(wù)管理技術(shù)。為了能夠讓不同的業(yè)務(wù)系統(tǒng)使用本計算平臺,平臺必須要提供服務(wù)調(diào)度和服務(wù)管理功能。服務(wù)調(diào)度根據(jù)服務(wù)的優(yōu)先級以及服務(wù)和資源的匹配情況等進(jìn)行調(diào)度,解決服務(wù)的并行互斥、隔離等,保證數(shù)據(jù)挖掘平臺的云服務(wù)是安全、可靠的,并根據(jù)服務(wù)管控進(jìn)行調(diào)度控制。服務(wù)管理實現(xiàn)統(tǒng)一的服務(wù)注冊、服務(wù)暴露等功能,不僅支持本地服務(wù)能力的暴露,也支持第三方數(shù)據(jù)挖掘能力的接入,很好地擴(kuò)展數(shù)據(jù)挖掘平臺的服務(wù)能力。

  3.4挖掘算法并行化技術(shù)。挖掘算法并行化是有效利用云計算平臺提供的基礎(chǔ)能力的關(guān)鍵技術(shù)之一,涉及到算法是否可以并行、以及并行策略的選擇等技術(shù)。數(shù)據(jù)挖掘算法主要有決策樹算法、關(guān)聯(lián)規(guī)則算法以及K-平均值算法等,算法的并行化,是利用云計算平臺進(jìn)行數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。

【基于云計算的數(shù)據(jù)挖掘技術(shù)探討論文】相關(guān)文章:

云計算與云數(shù)據(jù)管理技術(shù)研究的論文05-02

數(shù)據(jù)挖掘論文04-29

基于數(shù)據(jù)挖掘技術(shù)的交通事故分析04-26

一種基于數(shù)據(jù)挖掘技術(shù)的決策信息模型04-30

基于數(shù)據(jù)挖掘技術(shù)的高校管理決策支持系統(tǒng)04-29

網(wǎng)絡(luò)營銷中數(shù)據(jù)挖掘技術(shù)的應(yīng)用論文11-27

數(shù)據(jù)挖掘技術(shù)在軟件工程的運用工程論文04-27

軟件工程數(shù)據(jù)挖掘開發(fā)測試技術(shù)論文04-27

數(shù)據(jù)挖掘論文[范例15篇]07-29

數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用04-29