數(shù)據(jù)挖掘

時(shí)間：2023-04-29 13:10:28 全科知識(shí) 我要投稿

相關(guān)推薦

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(數(shù)據(jù)挖掘)

數(shù)據(jù)挖掘（英語：Data mining），又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)（英語：Knowledge-Discovery in Databases，簡(jiǎn)稱：KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)，并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗(yàn)法則）和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD), an interdisciplinary subfield of computer science, is the computational process of discovering pattern...

目錄概述使用成功案例經(jīng)典算法收縮展開概述

數(shù)據(jù)挖掘（Data Mining，DM）是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題，所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程，它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等，高度自動(dòng)化地分析企業(yè)的數(shù)據(jù)，做出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調(diào)整市場(chǎng)策略，減少風(fēng)險(xiǎn)，做出正確的決策。知識(shí)發(fā)現(xiàn)過程由以下三個(gè)階段組成：（1）數(shù)據(jù)準(zhǔn)備，（2）數(shù)據(jù)挖掘，（3）結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫交互。數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù)，從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)，主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集；規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來；規(guī)律表示是盡可能以用戶可理解的方式（如可視化）將找出的規(guī)律表示出來。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析，等等。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如，使用數(shù)據(jù)庫管理系統(tǒng)查找個(gè)別的記錄，或通過因特網(wǎng)的搜索引擎查找特定的Web頁面，則是信息檢索（information retrieval）領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的，可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu)，但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu)，從而有效地組織和檢索信息。盡管如此，數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。起源需要是發(fā)明之母。近年來，數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注，其主要原因是存在大量數(shù)據(jù)，可以廣泛使用，并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用，包括商務(wù)管理，生產(chǎn)控制，市場(chǎng)分析，工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想：(1) 來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn)，(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想，這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地，需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能（并行）計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù)，并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。發(fā)展階段第一階段：電子郵件階段這個(gè)階段可以認(rèn)為是從70年代開始，平均的通訊量以每年幾倍的速度增長(zhǎng)。第二階段：信息發(fā)布階段從1995年起，以Web技術(shù)為代表的信息發(fā)布系統(tǒng)，爆炸式地成長(zhǎng)起來，成為目前Internet的主要應(yīng)用。中小企業(yè)如何把握好從“粗放型”到“精準(zhǔn)型”營銷時(shí)代的電子商務(wù)。第三階段： EC(Electronic Commerce），即電子商務(wù)階段 EC在美國也才剛剛開始，之所以把EC列為一個(gè)劃時(shí)代的東西，是因?yàn)镮nternet的最終主要商業(yè)用途，就是電子商務(wù)。同時(shí)反過來也可以說，若干年后的商業(yè)信息，主要是通過Internet傳遞。Internet即將成為我們這個(gè)商業(yè)信息社會(huì)的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會(huì)議（APEC）上美國總統(tǒng)克林頓提出敦促各國共同促進(jìn)電子商務(wù)發(fā)展的議案，其引起了全球首腦的關(guān)注，IBM、HP和Sun等國際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。第四階段：全程電子商務(wù)階段隨著SaaS（Software as a service）軟件服務(wù)模式的出現(xiàn)，軟件紛紛登陸互聯(lián)網(wǎng)[5]，延長(zhǎng)了電子商務(wù)鏈條，形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。

使用

分析方法： · 分類（Classification） · 估計(jì)（Estimation） · 預(yù)測(cè)（Prediction） · 相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules） · 聚類（Clustering） · 描述和可視化（Description and Visualization） · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像，視頻，音頻等) 方法簡(jiǎn)介： ·分類（Classification）首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集，在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù)，建立分類模型，對(duì)于沒有分類的數(shù)據(jù)進(jìn)行分類。例子： a. 信用卡申請(qǐng)者，分類為低、中、高風(fēng)險(xiǎn) b. 故障診斷：中國寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作，采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析，構(gòu)建故障地圖，實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因，有效提高了產(chǎn)品的優(yōu)良率。注意：類的個(gè)數(shù)是確定的，預(yù)先定義好的 · 估計(jì)（Estimation）估計(jì)與分類類似，不同之處在于，分類描述的是離散型變量的輸出，而估值處理連續(xù)值的輸出；分類的類別是確定數(shù)目的，估值的量是不確定的。例子： a. 根據(jù)購買模式，估計(jì)一個(gè)家庭的孩子個(gè)數(shù) b. 根據(jù)購買模式，估計(jì)一個(gè)家庭的收入 c. 估計(jì)real estate的價(jià)值一般來說，估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù)，通過估值，得到未知的連續(xù)變量的值，然后，根據(jù)預(yù)先設(shè)定的閾值，進(jìn)行分類。例如：銀行對(duì)家庭貸款業(yè)務(wù)，運(yùn)用估值，給各個(gè)客戶記分（Score 0~1）。然后，根據(jù)閾值，將貸款級(jí)別分類。 · 預(yù)測(cè)（Prediction）通常，預(yù)測(cè)是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用于對(duì)未知變量的預(yù)言。從這種意義上說，預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來未知變量的預(yù)測(cè)，這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的，即必須經(jīng)過一定時(shí)間后，才知道預(yù)言準(zhǔn)確性是多少。相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules）決定哪些事情將一起發(fā)生。例子： a. 超市中客戶在購買A的同時(shí)，經(jīng)常會(huì)購買B，即A => B(關(guān)聯(lián)規(guī)則) b. 客戶在購買A后，隔一段時(shí)間，會(huì)購買B （序列分析） · 聚類（Clustering）聚類是對(duì)記錄分組，把相似的記錄在一個(gè)聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類，不需要訓(xùn)練集。例子： a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病 b. 租VCD類型不相似的客戶聚集，可能暗示成員屬于不同的亞文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如，"哪一種類的促銷對(duì)客戶響應(yīng)最好？"，對(duì)于這一類問題，首先對(duì)整個(gè)客戶做聚集，將客戶分組在各自的聚集里，然后對(duì)每個(gè)不同的聚集，回答問題，可能效果更好。 · 描述和可視化（Description and Visualization）是對(duì)數(shù)據(jù)挖掘結(jié)果的`表示方式。一般只是指數(shù)據(jù)可視化工具，包含報(bào)表工具和商業(yè)智能分析產(chǎn)品（BI）的統(tǒng)稱。譬如通過Yonghong Z-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn)，分析，鉆取，將數(shù)據(jù)挖掘的分析結(jié)果更形象，深刻的展現(xiàn)出來。挖掘分類以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類：直接數(shù)據(jù)挖掘；間接數(shù)據(jù)挖掘· 直接數(shù)據(jù)挖掘目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型，這個(gè)模型對(duì)剩余的數(shù)據(jù)，對(duì)一個(gè)特定的變量（可以理解成數(shù)據(jù)庫中表的屬性，即列）進(jìn)行描述。間接數(shù)據(jù)挖掘目標(biāo)中沒有選出某一具體的變量，用模型進(jìn)行描述；而是在所有的變量中建立起某種關(guān)系。 · 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘；后四種屬于間接數(shù)據(jù)挖掘

成功案例

數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評(píng)分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司，資產(chǎn)估計(jì)價(jià)值為9570萬美元，對(duì)于Credilogros而言，重要的是識(shí)別與潛在預(yù)先付款客戶相關(guān)的潛在風(fēng)險(xiǎn)，以便將承擔(dān)的風(fēng)險(xiǎn)最小化。該公司的第一個(gè)目標(biāo)是創(chuàng)建一個(gè)與公司核心系統(tǒng)和兩家信用報(bào)告公司系統(tǒng)交互的決策引擎來處理信貸申請(qǐng)。同時(shí)，Credilogros還在尋找針對(duì)它所服務(wù)的低收入客戶群體的自定義風(fēng)險(xiǎn)評(píng)分工具。除這些之外，其他需求還包括解決方案能在其35個(gè)分支辦公地點(diǎn)和200多個(gè)相關(guān)的銷售點(diǎn)中的任何一個(gè)實(shí)時(shí)操作，包括零售家電連鎖店和手機(jī)銷售公司。最終Credilogros 選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASWModeler，因?yàn)樗軌蜢`活并輕松地整合到 Credilogros 的核心信息系統(tǒng)中。通過實(shí)現(xiàn)PASW Modeler，Credilogros將用于處理信用數(shù)據(jù)和提供最終信用評(píng)分的時(shí)間縮短到了8秒以內(nèi)。這使該組織能夠迅速批準(zhǔn)或拒絕信貸請(qǐng)求。該決策引擎還使 Credilogros 能夠最小化每個(gè)客戶必須提供的身份證明文檔，在一些特殊情況下，只需提供一份身份證明即可批準(zhǔn)信貸。此外，該系統(tǒng)還提供監(jiān)控功能。Credilogros目前平均每月使用PASW Modeler處理35000份申請(qǐng)。僅在實(shí)現(xiàn) 3 個(gè)月后就幫助Credilogros 將貸款支付失職減少了 20%. 數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度 DHL是國際快遞和物流行業(yè)的全球市場(chǎng)領(lǐng)先者，它提供快遞、水陸空三路運(yùn)輸、合同物流解決方案，以及國際郵件服務(wù)。DHL的國際網(wǎng)絡(luò)將超過220個(gè)國家及地區(qū)聯(lián)系起來，員工總數(shù)超過28.5萬人。在美國 FDA 要求確保運(yùn)送過程中藥品裝運(yùn)的溫度達(dá)標(biāo)這一壓力之下，DHL的醫(yī)藥客戶強(qiáng)烈要求提供更可靠且更實(shí)惠的選擇。這就要求DHL在遞送的各個(gè)階段都要實(shí)時(shí)跟蹤集裝箱的溫度。雖然由記錄器方法生成的信息準(zhǔn)確無誤，但是無法實(shí)時(shí)傳遞數(shù)據(jù)，客戶和DHL都無法在發(fā)生溫度偏差時(shí)采取任何預(yù)防和糾正措施。因此，DHL的母公司德國郵政世界網(wǎng)（DPWN）通過技術(shù)與創(chuàng)新管理（TIM）集團(tuán)明確擬定了一個(gè)計(jì)劃，準(zhǔn)備使用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。DHL獲得了兩方面的收益：對(duì)于最終客戶來說，能夠使醫(yī)藥客戶對(duì)運(yùn)送過程中出現(xiàn)的裝運(yùn)問題提前做出響應(yīng)，并以引人注目的低成本全面切實(shí)地增強(qiáng)了運(yùn)送可靠性。對(duì)于DHL來說，提高了客戶滿意度和忠實(shí)度；為保持競(jìng)爭(zhēng)差異奠定堅(jiān)實(shí)的基礎(chǔ)；并成為重要的新的收入增長(zhǎng)來源。基本步驟數(shù)據(jù)挖掘的步驟會(huì)隨不同領(lǐng)域的應(yīng)用而有所變化，每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和使用步驟，針對(duì)不同問題和需求所制定的數(shù)據(jù)挖掘過程也會(huì)存在差異。此外，數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會(huì)對(duì)建立數(shù)據(jù)挖掘過程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運(yùn)用、規(guī)劃，以及流程的差異性，即使同一產(chǎn)業(yè)，也會(huì)因?yàn)榉治黾夹g(shù)和專業(yè)知識(shí)的涉入程度不同而不同，因此對(duì)于數(shù)據(jù)挖掘過程的系統(tǒng)化、標(biāo)準(zhǔn)化就顯得格外重要。如此一來，不僅可以較容易地跨領(lǐng)域應(yīng)用，也可以結(jié)合不同的專業(yè)知識(shí)，發(fā)揮數(shù)據(jù)挖掘的真正精神。數(shù)據(jù)挖掘完整的步驟如下： ① 理解數(shù)據(jù)和數(shù)據(jù)的來源（understanding）。 ② 獲取相關(guān)知識(shí)與技術(shù)（acquisition）。 ③ 整合與檢查數(shù)據(jù)（integration and checking）。 ④ 去除錯(cuò)誤或不一致的數(shù)據(jù)（data cleaning）。 ⑤ 建立模型和假設(shè)（model and hypothesis development）。 ⑥ 實(shí)際數(shù)據(jù)挖掘工作（data mining）。 ⑦ 測(cè)試和驗(yàn)證挖掘結(jié)果（testing and verification）。 ⑧ 解釋和應(yīng)用（interpretation and use）。由上述步驟可看出，數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作，事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中，有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段，其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合，以及數(shù)據(jù)表的鏈接。可見，在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前，還有許多準(zhǔn)備工作要完成。行業(yè)應(yīng)用價(jià)格競(jìng)爭(zhēng)空前激烈，語音業(yè)務(wù)增長(zhǎng)趨緩，快速增長(zhǎng)的中國移動(dòng)通信市場(chǎng)正面臨著前所未有的生存壓力。中國電信業(yè)改革的加速推進(jìn)形成了新的競(jìng)爭(zhēng)態(tài)勢(shì)，移動(dòng)運(yùn)營市場(chǎng)的競(jìng)爭(zhēng)廣度和強(qiáng)度將進(jìn)一步加大，這特別表現(xiàn)在集團(tuán)客戶領(lǐng)域。移動(dòng)信息化和集團(tuán)客戶已然成為未來各運(yùn)營商應(yīng)對(duì)競(jìng)爭(zhēng)、獲取持續(xù)增長(zhǎng)的新引擎。隨著國內(nèi)三足鼎立全業(yè)務(wù)競(jìng)爭(zhēng)態(tài)勢(shì)和3G牌照發(fā)放，各運(yùn)營商為集團(tuán)客戶提供融合的信息化解決方案將是大勢(shì)所趨，而移動(dòng)信息化將成為全面進(jìn)入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動(dòng)運(yùn)營商因此面臨著從傳統(tǒng)個(gè)人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集團(tuán)客戶信息化業(yè)務(wù)領(lǐng)域的挑戰(zhàn)。如何應(yīng)對(duì)來自內(nèi)外部的挑戰(zhàn)，迅速以移動(dòng)信息化業(yè)務(wù)作為融合業(yè)務(wù)的競(jìng)爭(zhēng)利器之一拓展集團(tuán)客戶市場(chǎng)，在新興市場(chǎng)中立于不敗之地，是傳統(tǒng)移動(dòng)運(yùn)營商需要解決的緊迫問題。 IBM全球企業(yè)咨詢服務(wù)部經(jīng)過研究認(rèn)為，傳統(tǒng)移動(dòng)運(yùn)營商在拓展集團(tuán)客戶信息化市場(chǎng)的過程中所面臨的外部挑戰(zhàn)主要來自三個(gè)方面，即市場(chǎng)需求不成熟，技術(shù)與業(yè)務(wù)融合，全業(yè)務(wù)的競(jìng)爭(zhēng)。同時(shí)，運(yùn)營商在自身發(fā)展上也存在諸多問題，例如目標(biāo)市場(chǎng)細(xì)分不清晰，信息化需求挖掘與評(píng)估不足；產(chǎn)品規(guī)劃和管理難以滿足客戶信息化需求；渠道較為單一，無法有效覆蓋客戶；對(duì)合作伙伴吸引力較弱，尚未形成共贏的價(jià)值鏈；在運(yùn)營管理層面，業(yè)務(wù)流程、銷售團(tuán)隊(duì)能力以及IT支撐上都不適應(yīng)集團(tuán)信息化業(yè)務(wù)的發(fā)展。從目前網(wǎng)絡(luò)招聘的信息來看，大小公司對(duì)數(shù)據(jù)挖掘的需求有50多個(gè)方面（來源見參考資料）： 1、數(shù)據(jù)統(tǒng)計(jì)分析 2、預(yù)測(cè)預(yù)警模型 3、數(shù)據(jù)信息闡釋 4、數(shù)據(jù)采集評(píng)估 5、數(shù)據(jù)加工倉庫 6、品類數(shù)據(jù)分析 7、銷售數(shù)據(jù)分析 8、網(wǎng)絡(luò)數(shù)據(jù)分析 9、流量數(shù)據(jù)分析 10、交易數(shù)據(jù)分析 11、媒體數(shù)據(jù)分析 12、情報(bào)數(shù)據(jù)分析 13、金融產(chǎn)品設(shè)計(jì) 14、日常數(shù)據(jù)分析 15、總裁萬事通 16、數(shù)據(jù)變化趨勢(shì) 17、預(yù)測(cè)預(yù)警模型 18、運(yùn)營數(shù)據(jù)分析 19、商業(yè)機(jī)遇挖掘 20、風(fēng)險(xiǎn)數(shù)據(jù)分析 21、缺陷信息挖掘 22、決策數(shù)據(jù)支持 23、運(yùn)營優(yōu)化與成本控制 24、質(zhì)量控制與預(yù)測(cè)預(yù)警 25、系統(tǒng)工程數(shù)學(xué)技術(shù) 26、用戶行為分析/客戶需求模型 27、產(chǎn)品銷售預(yù)測(cè)（熱銷特征） 28、商場(chǎng)整體利潤最大化系統(tǒng)設(shè)計(jì) 29、市場(chǎng)數(shù)據(jù)分析 30、綜合數(shù)據(jù)關(guān)聯(lián)系統(tǒng)設(shè)計(jì) 31、行業(yè)/企業(yè)指標(biāo)設(shè)計(jì) 32、企業(yè)發(fā)展關(guān)鍵點(diǎn)分析 33、資金鏈管理設(shè)計(jì)與風(fēng)險(xiǎn)控制 34、用戶需求挖掘 35、產(chǎn)品數(shù)據(jù)分析 36、銷售數(shù)據(jù)分析 37、異常數(shù)據(jù)分析 38、數(shù)學(xué)規(guī)劃與數(shù)學(xué)方案 39、數(shù)據(jù)實(shí)驗(yàn)?zāi)M 40、數(shù)學(xué)建模與分析 41、呼叫中心數(shù)據(jù)分析 42、貿(mào)易/進(jìn)出口數(shù)據(jù)分析 43、海量數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)、關(guān)鍵技術(shù)研究 44、數(shù)據(jù)清洗、分析、建模、調(diào)試、優(yōu)化 45、數(shù)據(jù)挖掘算法的分析研究、建模、實(shí)驗(yàn)?zāi)M 46、組織機(jī)構(gòu)運(yùn)營監(jiān)測(cè)、評(píng)估、預(yù)測(cè)預(yù)警 47、經(jīng)濟(jì)數(shù)據(jù)分析、預(yù)測(cè)、預(yù)警 48、金融數(shù)據(jù)分析、預(yù)測(cè)、預(yù)警 49、科研數(shù)學(xué)建模與數(shù)據(jù)分析：社會(huì)科學(xué)，自然科學(xué)，醫(yī)藥，農(nóng)學(xué)，計(jì)算機(jī)，工程，信息，軍事，圖書情報(bào)等 50、數(shù)據(jù)指標(biāo)開發(fā)、分析與管理 51、產(chǎn)品數(shù)據(jù)挖掘與分析 52、商業(yè)數(shù)學(xué)與數(shù)據(jù)技術(shù) 53、故障預(yù)測(cè)預(yù)警技術(shù) 54、數(shù)據(jù)自動(dòng)分析技術(shù) 55、泛工具分析 56、互譯 57、指數(shù)化其中，互譯與指數(shù)化是數(shù)據(jù)挖掘除計(jì)算機(jī)技術(shù)之外最核心的兩大技術(shù)。

經(jīng)典算法

1. C4.5：是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法，其核心算法是ID3算法。 2. K-means算法：是一種聚類算法。 3.SVM：一種監(jiān)督式學(xué)習(xí)的方法，廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中 4.Apriori ：是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 5.EM：最大期望值法。 6.pagerank：是google算法的重要內(nèi)容。 7. Adaboost:是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來，構(gòu)成一個(gè)更強(qiáng)的最終分類器。 8.KNN:是一個(gè)理論上比較成熟的的方法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。 9.Naive Bayes：在眾多分類方法中，應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯（Naive Bayes） 10.Cart：分類與回歸樹，在分類樹下面有兩個(gè)關(guān)鍵的思想，第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法，第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。關(guān)聯(lián)規(guī)則規(guī)則定義在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前，我們先來看一個(gè)有趣的故事： "尿布與啤酒"的故事。在一家超市里，有一個(gè)有趣的現(xiàn)象：尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話，而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例，并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)，為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣，沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析，想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上，沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是："跟尿布一起購買最多的商品竟是啤酒！經(jīng)過大量實(shí)際調(diào)查和分析，揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國人的一種行為模式：在美國，一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是：美國的太太們常叮囑她們的丈夫下班后為小孩買尿布，而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維，尿布與啤酒風(fēng)馬牛不相及，若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析，沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù)，即使知道也是不確定的，因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題，以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化，如引入隨機(jī)采樣、并行的思想等，以提高算法挖掘規(guī)則的效率；對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題，最近幾年已被業(yè)界所廣泛研究。

【數(shù)據(jù)挖掘】相關(guān)文章：

數(shù)據(jù)挖掘論文04-29

淺談數(shù)據(jù)挖掘05-02

數(shù)據(jù)挖掘挖出效益05-02

論數(shù)據(jù)倉庫和數(shù)據(jù)挖掘04-28

數(shù)據(jù)挖掘論文[范例15篇]07-29

數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用04-29

數(shù)據(jù)挖掘的發(fā)展和應(yīng)用綜述04-30

中國基因?qū)＠臄?shù)據(jù)挖掘04-26

數(shù)據(jù)挖掘在信用卡公司的應(yīng)用04-26

飛機(jī)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)挖掘方法研究04-27

亚洲一区亚洲二区亚洲三区,国产成人高清在线,久久久精品成人免费看,999久久久免费精品国产牛牛,青草视频在线观看完整版,狠狠夜色午夜久久综合热91,日韩精品视频在线免费观看

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(數(shù)據(jù)挖掘)