日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
SQL Server 2008 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘是從大型數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過(guò)程。數(shù)據(jù)挖掘使用數(shù)學(xué)分析來(lái)派生存在于數(shù)據(jù)中的模式和趨勢(shì)。通常,由于這些模式的關(guān)系過(guò)于復(fù)雜或涉及數(shù)據(jù)過(guò)多,因此使用傳統(tǒng)數(shù)據(jù)瀏覽無(wú)法發(fā)現(xiàn)這些模式。

這些模式和趨勢(shì)可以被收集在一起并定義為“數(shù)據(jù)挖掘模型”。挖掘模型可以應(yīng)用于特定的業(yè)務(wù)方案,例如:

◆ 預(yù)測(cè)銷售額

◆ 向特定客戶發(fā)送郵件

◆ 確定可能需要搭售的產(chǎn)品

◆ 查找客戶將產(chǎn)品放入購(gòu)物車的順序序列

生成挖掘模型是大型過(guò)程的一部分,此過(guò)程包括從提出相關(guān)數(shù)據(jù)問(wèn)題并創(chuàng)建模型以解答這些問(wèn)題到將模型部署到工作環(huán)境的所有事情。此過(guò)程可以使用下列六個(gè)基本步驟進(jìn)行定義:

◆ 定義問(wèn)題

◆ 準(zhǔn)備數(shù)據(jù)

◆ 瀏覽數(shù)據(jù)

◆ 生成模型

◆ 瀏覽和驗(yàn)證模型

◆ 部署和更新模型

以下關(guān)系圖說(shuō)明過(guò)程中每個(gè)步驟之間的關(guān)系,以及 Microsoft SQL Server 2008 中可用于完成每個(gè)步驟的技術(shù)。

盡管關(guān)系圖中所示的過(guò)程是一個(gè)循環(huán)過(guò)程,但是每個(gè)步驟并不需要直接執(zhí)行到下一個(gè)步驟。創(chuàng)建數(shù)據(jù)挖掘模型是一個(gè)動(dòng)態(tài)、交互的過(guò)程。瀏覽完數(shù)據(jù)之后,您可能會(huì)發(fā)現(xiàn)數(shù)據(jù)不足,無(wú)法創(chuàng)建適當(dāng)?shù)耐诰蚰P?,因此必須查找更多的?shù)據(jù)?;蛘?,您可以生成數(shù)個(gè)模型,但隨后發(fā)現(xiàn)這些模型無(wú)法充分地回答定義的問(wèn)題,因此必須重新定義問(wèn)題。您可能必須在部署模型之后對(duì)其進(jìn)行更新,因?yàn)橛殖霈F(xiàn)了更多的可用數(shù)據(jù)。可能需要多次重復(fù)過(guò)程中的每個(gè)步驟才能創(chuàng)建良好的模型。

SQL Server 2008 提供用于創(chuàng)建和使用數(shù)據(jù)挖掘模型的集成環(huán)境,稱為 Business Intelligence Development Studio。該環(huán)境包括數(shù)據(jù)挖掘算法和工具,使用這些算法和工具更易于生成用于各種項(xiàng)目的綜合解決方案。

創(chuàng)建數(shù)據(jù)挖掘解決方案后,您可以使用 SQL Server Management Studio 維護(hù)和瀏覽該解決方案。

定義問(wèn)題

與以下關(guān)系圖的突出顯示相同,數(shù)據(jù)挖掘過(guò)程的第一步就是明確定義業(yè)務(wù)問(wèn)題,并考慮解答該問(wèn)題的方法。

該步驟包括分析業(yè)務(wù)需求,定義問(wèn)題的范圍,定義計(jì)算模型所使用的度量,以及定義數(shù)據(jù)挖掘項(xiàng)目的特定目標(biāo)。這些任務(wù)轉(zhuǎn)換為下列問(wèn)題:

◆ 您在查找什么?您要嘗試找到什么類型的關(guān)系?

◆ 您要嘗試解決的問(wèn)題是否反映了業(yè)務(wù)策略或流程?

◆ 您要通過(guò)數(shù)據(jù)挖掘模型進(jìn)行預(yù)測(cè),還是僅僅查找受關(guān)注的模式和關(guān)聯(lián)?

◆ 您要嘗試預(yù)測(cè)數(shù)據(jù)集的哪個(gè)屬性?

◆ 列如何關(guān)聯(lián)?或者如果有多個(gè)表,則表如何關(guān)聯(lián)?

◆ 如何分發(fā)數(shù)據(jù)?數(shù)據(jù)是否具有季節(jié)性性質(zhì)?數(shù)據(jù)是否可以準(zhǔn)確反映業(yè)務(wù)流程?

#p#

若要回答這些問(wèn)題,可能必須進(jìn)行數(shù)據(jù)可用性研究,必須調(diào)查業(yè)務(wù)用戶對(duì)可用數(shù)據(jù)的需求。如果數(shù)據(jù)不支持用戶的需求,則還必須重新定義項(xiàng)目。

此外,還需要考慮如何將模型結(jié)果納入用于度量業(yè)務(wù)進(jìn)度的關(guān)鍵績(jī)效指標(biāo) (KPI)。
準(zhǔn)備數(shù)據(jù)

如以下關(guān)系圖中突出顯示的那樣,數(shù)據(jù)挖掘過(guò)程的第二步就是合并和清除定義問(wèn)題步驟中標(biāo)識(shí)的數(shù)據(jù)。

數(shù)據(jù)可以分散在公司的各個(gè)部門并以不同的格式存儲(chǔ),或者可能包含錯(cuò)誤項(xiàng)或缺少項(xiàng)之類的不一致性。例如,數(shù)據(jù)可能顯示客戶在產(chǎn)品推向市場(chǎng)之前購(gòu)買該產(chǎn)品,或者客戶在距離她家 2,000 英里的商店定期購(gòu)物。

數(shù)據(jù)清除不僅僅是刪除錯(cuò)誤數(shù)據(jù),還包括查找數(shù)據(jù)中的隱含相關(guān)性、標(biāo)識(shí)最準(zhǔn)確的數(shù)據(jù)源并確定哪些列最適合用于分析。例如,應(yīng)當(dāng)使用發(fā)貨日期還是訂購(gòu)日期?最佳銷售影響因素是數(shù)量、總價(jià)格,還是打折價(jià)格?不完整數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和輸入看似獨(dú)立,但實(shí)際上有很強(qiáng)的關(guān)聯(lián)性,它們可以以意想不到的方式影響模型的結(jié)果。因此,在開始生成挖掘模型之前,應(yīng)確定這些問(wèn)題及其解決方式。

通常,您使用的是一個(gè)非常大的數(shù)據(jù)集,并且無(wú)法仔細(xì)查看每個(gè)事務(wù)。因此,必須使用某種自動(dòng)化的形式(如,在 Integration Services 中)來(lái)瀏覽數(shù)據(jù)并找到這些不一致。Microsoft SQL Server 2008 Integration Services (SSIS) 包含完成該步驟所需的所有工具,步驟內(nèi)容包括轉(zhuǎn)換到自動(dòng)執(zhí)行數(shù)據(jù)清除和合并。

需要特別注意的是用于數(shù)據(jù)挖掘的數(shù)據(jù)不必存儲(chǔ)在聯(lián)機(jī)分析處理 (OLAP) 多維數(shù)據(jù)集中,或者甚至不必存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,但是您可以將它們作為數(shù)據(jù)源使用。您可以使用已被定義為 Analysis Services 數(shù)據(jù)源的任何數(shù)據(jù)源執(zhí)行數(shù)據(jù)挖掘。這些數(shù)據(jù)源可以包括文本文件、Excel 工作簿或來(lái)自其他外部提供程序的數(shù)據(jù)。

瀏覽數(shù)據(jù)

如以下關(guān)系圖中突出顯示的那樣,數(shù)據(jù)挖掘過(guò)程的第三步就是瀏覽已準(zhǔn)備的數(shù)據(jù)。

您必須了解數(shù)據(jù),以便在創(chuàng)建挖掘模型時(shí)作出正確的決策。瀏覽技術(shù)包括計(jì)算最小值和最大值,計(jì)算平均偏差和標(biāo)準(zhǔn)偏差,以及查看數(shù)據(jù)的分布。例如,通過(guò)查看最大值、最小值和平均值,您可以確定數(shù)據(jù)并不能代表客戶或業(yè)務(wù)流程,因此您必須獲取更多均衡數(shù)據(jù)或查看您的預(yù)期結(jié)果所依據(jù)的假定。標(biāo)準(zhǔn)偏差和其他分發(fā)值可以提供有關(guān)結(jié)果的穩(wěn)定性和準(zhǔn)確性的有用信息。大型標(biāo)準(zhǔn)偏差可以指示添加更多數(shù)據(jù)可以幫助改進(jìn)模型。與標(biāo)準(zhǔn)分發(fā)偏差很大的數(shù)據(jù)可能已被扭曲,抑或準(zhǔn)確反映了現(xiàn)實(shí)問(wèn)題,但很難使模型適合數(shù)據(jù)。

借助您自己對(duì)業(yè)務(wù)問(wèn)題的理解來(lái)瀏覽數(shù)據(jù),您可以確定數(shù)據(jù)集是否包含缺陷數(shù)據(jù),隨后您可以設(shè)計(jì)用于解決該問(wèn)題的策略或者更深入地理解業(yè)務(wù)的典型行為。

BI Development Studio 中的數(shù)據(jù)源視圖設(shè)計(jì)器包含數(shù)種可用于瀏覽數(shù)據(jù)的工具。

此外,在創(chuàng)建模型時(shí),Analysis Services 還會(huì)針對(duì)該模型中包含的數(shù)據(jù)自動(dòng)創(chuàng)建統(tǒng)計(jì)摘要,您可以進(jìn)行查詢以便用于報(bào)告或進(jìn)一步分析。
生成模型

如以下關(guān)系圖中突出顯示的那樣,數(shù)據(jù)挖掘過(guò)程的第四步就是生成一個(gè)或多個(gè)挖掘模型。您將使用從瀏覽數(shù)據(jù)步驟中獲得的知識(shí)來(lái)幫助定義和創(chuàng)建模型。

通過(guò)創(chuàng)建挖掘結(jié)構(gòu)定義要使用的數(shù)據(jù)。挖掘結(jié)構(gòu)定義數(shù)據(jù)源,但只有對(duì)挖掘結(jié)構(gòu)進(jìn)行處理后,該結(jié)構(gòu)才會(huì)包含任何數(shù)據(jù)。處理挖掘結(jié)構(gòu)時(shí),Analysis Services 生成可用于分析的聚合信息以及其他統(tǒng)計(jì)信息?;谠摻Y(jié)構(gòu)的所有挖掘模型均可使用該信息。

在處理模型之前,數(shù)據(jù)挖掘模型只是一個(gè)容器,指定用于輸入的列、要預(yù)測(cè)的屬性以及指示算法如何處理數(shù)據(jù)的參數(shù)。處理模型也稱為“定型”。定型表示向結(jié)構(gòu)中的數(shù)據(jù)應(yīng)用特定數(shù)學(xué)算法以便提取模式的過(guò)程。在定型過(guò)程中找到的模式取決于選擇的定型數(shù)據(jù)、所選算法以及如何配置該算法。SQL Server 2008 包含多種不同算法,每種算法都適合不同的任務(wù)類型,并且每種算法都創(chuàng)建不同的模型類型。

此外,還可以使用參數(shù)調(diào)整每種算法,并向定型數(shù)據(jù)應(yīng)用篩選器,以便僅使用數(shù)據(jù)子集,進(jìn)而創(chuàng)建不同結(jié)果。在通過(guò)模型傳遞數(shù)據(jù)之后,即可查詢挖掘模型對(duì)象包含的摘要和模式,并將其用于預(yù)測(cè)。

您可以在 BI Development Studio 中使用數(shù)據(jù)挖掘向?qū)Щ蚴褂脭?shù)據(jù)挖掘擴(kuò)展插件 (DMX) 語(yǔ)言來(lái)定義新的模型。

務(wù)必記住,只要數(shù)據(jù)發(fā)生更改,必須更新數(shù)據(jù)挖掘結(jié)構(gòu)和挖掘模型。重新處理挖掘結(jié)構(gòu)以進(jìn)行更新時(shí),Analysis Services 檢索源中的數(shù)據(jù),包括任何新數(shù)據(jù)(如果動(dòng)態(tài)更新源),并重新填充挖掘結(jié)構(gòu)。如果您具有基于結(jié)構(gòu)的模型,則可以選擇更新基于該結(jié)構(gòu)的模型,這表示可以根據(jù)新數(shù)據(jù)保留模型,或者也可以使模型保持原樣。

#p#

瀏覽和驗(yàn)證模型

如以下關(guān)系圖中突出顯示的那樣,數(shù)據(jù)挖掘過(guò)程的第五步就是瀏覽您已經(jīng)生成的挖掘模型并測(cè)試其有效性。

在將模型部署到生產(chǎn)環(huán)境之前,您需要測(cè)試模型的性能。此外,在生成模型時(shí),您通常需要使用不同配置創(chuàng)建多個(gè)模型,并對(duì)所有這些模型進(jìn)行測(cè)試,以便查看哪個(gè)模型為您的問(wèn)題和數(shù)據(jù)生成最佳結(jié)果。

Analysis Services 提供的工具可幫助您將數(shù)據(jù)分成定型數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,使您可以更準(zhǔn)確地評(píng)估基于相同數(shù)據(jù)的所有模型的性能。您使用定型數(shù)據(jù)集生成模型,并通過(guò)創(chuàng)建預(yù)測(cè)查詢來(lái)使用測(cè)試數(shù)據(jù)集測(cè)試模型的準(zhǔn)確性。在 SQL Server 2008 Analysis Services 中,生成挖掘模型時(shí)可自動(dòng)執(zhí)行該分區(qū)操作。

可以使用 BI Development Studio 中數(shù)據(jù)挖掘設(shè)計(jì)器內(nèi)的查看器來(lái)瀏覽算法發(fā)現(xiàn)的趨勢(shì)和模式。還可以使用該設(shè)計(jì)器中的工具(如,提升圖和分類矩陣)來(lái)測(cè)試模型創(chuàng)建預(yù)測(cè)的性能。若要驗(yàn)證模型是否特定于您的數(shù)據(jù),或者是否可用于推斷總體,您可以使用稱為“交叉驗(yàn)證”的統(tǒng)計(jì)方法來(lái)自動(dòng)創(chuàng)建數(shù)據(jù)子集,并參照每個(gè)子集測(cè)試模型。

如果您在生成模型步驟中創(chuàng)建的所有模型都無(wú)法正常工作,則必須返回到此過(guò)程的上一個(gè)步驟,并重新定義問(wèn)題或重新調(diào)查原始數(shù)據(jù)集中的數(shù)據(jù)。

部署和更新模型

如下面的關(guān)系圖中突出顯示的那樣,數(shù)據(jù)挖掘過(guò)程的最后一步是將性能最佳的模型部署到生產(chǎn)環(huán)境。

當(dāng)生產(chǎn)環(huán)境中部署了挖掘模型之后,便可根據(jù)您的需求執(zhí)行許多任務(wù)。下面是一些可以執(zhí)行的任務(wù):

使用模型創(chuàng)建預(yù)測(cè),然后可以使用這些預(yù)測(cè)作出業(yè)務(wù)決策。SQL Server 提供可用于創(chuàng)建預(yù)測(cè)查詢的 DMX 語(yǔ)言,同時(shí)還提供有助于生成查詢的預(yù)測(cè)查詢生成器。

創(chuàng)建內(nèi)容查詢以檢索模型中的統(tǒng)計(jì)信息、規(guī)則或公式。

直接將數(shù)據(jù)挖掘功能嵌入到應(yīng)用程序。您可以包括含有一組對(duì)象的分析管理對(duì)象 (AMO),應(yīng)用程序可使用這組對(duì)象創(chuàng)建、更改、處理以及刪除挖掘結(jié)構(gòu)和挖掘模型。另外,可以直接將 XML for Analysis (XMLA) 消息發(fā)送到 Analysis Services 實(shí)例。

使用 Integration Services 創(chuàng)建一個(gè)包,在這個(gè)包中,挖掘模型用于將傳入數(shù)據(jù)合理地分離到多個(gè)表中。例如,如果數(shù)據(jù)庫(kù)不斷地通過(guò)潛在客戶進(jìn)行更新,則可以結(jié)合使用挖掘模型和 Integration Services 將傳入數(shù)據(jù)拆分為可能購(gòu)買產(chǎn)品的客戶和不可能購(gòu)買產(chǎn)品的客戶。

創(chuàng)建可讓用戶直接對(duì)現(xiàn)有挖掘模型進(jìn)行查詢的報(bào)表。

在查看和分析后更新模型。任何更新都要求您重新處理該模型。

隨著組織傳入的數(shù)據(jù)不斷增多,應(yīng)將動(dòng)態(tài)更新模型并進(jìn)行一致更改(以便提高解決方案的效率)作為部署策略的一部分。

【編輯推薦】

  1. 視頻教程下載:SQL Server 2008 性能管理
  2. SQL Server 2008重裝上陣 能否引領(lǐng)數(shù)據(jù)庫(kù)風(fēng)潮
  3. SQL Server 2008新特性之?dāng)?shù)據(jù)倉(cāng)庫(kù)可擴(kuò)展性

本文標(biāo)題:SQL Server 2008 數(shù)據(jù)挖掘的概念
URL鏈接:http://m.5511xx.com/article/djgpdoc.html