久草视频在线看看,日韩91精品视频

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

SQLServer2008數(shù)據(jù)庫中正確的對(duì)驗(yàn)證數(shù)據(jù)挖掘模型

此文章主要向大家講述的是如何正確在SQL Server 2008數(shù)據(jù)庫中正確的對(duì)驗(yàn)證數(shù)據(jù)挖掘模型，微軟公司的SQL Server 2008數(shù)據(jù)庫主要是將整個(gè)數(shù)據(jù)挖掘流程定義為挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器。

挖掘準(zhǔn)確性圖表和挖掘模型預(yù)測(cè)五個(gè)步驟，本文將討論如何在SQL Server 2008中驗(yàn)證已經(jīng)建好的數(shù)據(jù)挖掘模型。

為什么要對(duì)數(shù)據(jù)挖

微軟SQL Server 2008將整個(gè)數(shù)據(jù)挖掘流程定義為挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器、挖掘準(zhǔn)確性圖表和挖掘模型預(yù)測(cè)五個(gè)步驟，本文將討論如何在SQL Server 2008中驗(yàn)證已經(jīng)建好的數(shù)據(jù)挖掘模型。

1. 為什么要對(duì)數(shù)據(jù)挖掘模型進(jìn)行驗(yàn)證

當(dāng)我們建立好一個(gè)數(shù)據(jù)挖掘模型時(shí)，并不能保證所建模型能夠直接的解決商業(yè)問題，我們要使用多種方法來評(píng)估和檢驗(yàn)數(shù)據(jù)挖掘模型的質(zhì)量和特征。我們可以將將數(shù)據(jù)分為定型集和測(cè)試集來評(píng)估數(shù)據(jù)挖掘模型。通過將數(shù)據(jù)集分區(qū)為定型集和測(cè)試集時(shí)，定型集是取大多數(shù)數(shù)據(jù)，小部分?jǐn)?shù)據(jù)用于測(cè)試。

通過對(duì)全部數(shù)據(jù)的整體數(shù)據(jù)抽樣，我們要保證定型集和測(cè)試集的相似。通過使用相似的數(shù)據(jù)來進(jìn)行定型和測(cè)試，可以更好得驗(yàn)證數(shù)據(jù)挖掘模型。

驗(yàn)證數(shù)據(jù)挖掘模型主要是從準(zhǔn)確性、可靠性和有用性這三個(gè)方面入手。準(zhǔn)確性是數(shù)據(jù)挖掘模型與所提供數(shù)據(jù)中的屬性的結(jié)果相關(guān)聯(lián)程度的度量值。可靠性是評(píng)估數(shù)據(jù)挖掘模型處理不同數(shù)據(jù)集的方法。有用性包括了模型是否提供了有用信息的各種指標(biāo)，比如說有些數(shù)據(jù)挖掘模型在數(shù)據(jù)上是成功的，但是實(shí)際上沒有意義。

在SQL Server 2008中的挖掘模型驗(yàn)證方法可以用繪制模型準(zhǔn)確性圖表，挖掘模型的交叉驗(yàn)證等方法來進(jìn)行模型驗(yàn)證。

2. 挖掘模型的準(zhǔn)確性圖表

SQL Server 2008中的挖掘模型的準(zhǔn)確性圖表主要有提升圖、利潤圖、散點(diǎn)圖、分類矩陣和交叉驗(yàn)證報(bào)表。

提升圖比較每個(gè)模型的預(yù)測(cè)的準(zhǔn)確性，可配置為顯示通用預(yù)測(cè)的準(zhǔn)確性或特定值預(yù)測(cè)的準(zhǔn)確性。提升圖是用來顯示挖掘模型所引起的提升變化的圖形表現(xiàn)形式。數(shù)據(jù)挖掘模型的結(jié)果都是介于隨機(jī)推測(cè)模型和精確無誤的預(yù)測(cè)模型之間的，與隨機(jī)模型相比，任何提高都可以視為提升。提升圖可以有效地估計(jì)例如客戶回復(fù)郵件這類模型的準(zhǔn)確性效果。如圖1所示。

利潤圖是與提升圖包含相同信息的相關(guān)圖表類型，但利潤圖還顯示與使用每個(gè)模型相關(guān)聯(lián)的利潤預(yù)計(jì)增長。利潤圖中包含一條灰線豎線，用于標(biāo)記目標(biāo)總體的百分比。挖掘圖例會(huì)隨著灰色豎線的移動(dòng)更新并顯示百分比值。利潤圖可以指示若要獲得***利潤，應(yīng)確定預(yù)測(cè)為多少幾率的屬性，諸如此類的問題。如圖2所示。

如果模型包含可預(yù)測(cè)連續(xù)性的屬性，系統(tǒng)會(huì)自動(dòng)顯示散點(diǎn)圖。所謂散點(diǎn)圖，就是通過圖形對(duì)照顯示模型中的實(shí)際值和預(yù)測(cè)值。X軸表示實(shí)際值，Y軸表示預(yù)測(cè)值，圖中間的一條直線表示在***預(yù)測(cè)的情況下，預(yù)測(cè)值和實(shí)際值完全匹配。散點(diǎn)圖通過將連續(xù)性的輸入屬性視為獨(dú)立變量，預(yù)測(cè)屬性視為依賴變量，圖形顯示了結(jié)果與輸出的緊密程度。如圖3所示。

在分類矩陣中，每個(gè)矩陣的行表示模型的預(yù)測(cè)值，而列則表示實(shí)際值。分類矩陣是通過將所有事例分揀到各類別中創(chuàng)建的。這些類別可以是“假正”、“真正”、“假負(fù)”和“真負(fù)”。通過對(duì)每個(gè)類別中的所有事例進(jìn)行計(jì)數(shù)，并在矩陣中顯示總計(jì)。

通過對(duì)分類矩陣的查看，可以快速查看模型作出正確預(yù)測(cè)的頻率。分類矩陣主要用于評(píng)估模型所進(jìn)行的預(yù)測(cè)是否有效，可以通過已知其預(yù)測(cè)值的數(shù)據(jù)集進(jìn)行測(cè)試，我們一般使用在創(chuàng)建模型結(jié)構(gòu)時(shí)設(shè)定的測(cè)試集做測(cè)試，通過對(duì)測(cè)試集得比對(duì)，可以快速確定模型預(yù)測(cè)預(yù)期值的次數(shù)。

3.交叉驗(yàn)證

在創(chuàng)建了數(shù)據(jù)挖掘模型后，交叉驗(yàn)證用來確定模型的有效性。通過交叉驗(yàn)證，我們可以驗(yàn)證挖掘模型的可靠性，評(píng)估該模型以及統(tǒng)計(jì)并標(biāo)識(shí)***的模型。

我們通過交叉驗(yàn)證可以了解挖掘模型對(duì)于整個(gè)數(shù)據(jù)集的可靠程度，交叉驗(yàn)證可以將挖掘結(jié)構(gòu)分區(qū)為交叉部分，并針對(duì)數(shù)據(jù)的每個(gè)交叉部分循環(huán)定型和測(cè)試模型。我們可以把數(shù)據(jù)劃分到其中的每個(gè)分區(qū)，每個(gè)分區(qū)將依次用作測(cè)試數(shù)據(jù)，而其余的數(shù)據(jù)用于為新模型定型。

然后系統(tǒng)會(huì)為每個(gè)模型生成一組標(biāo)準(zhǔn)準(zhǔn)確性指標(biāo)。通過比較為每個(gè)交叉部分生成的模型的指標(biāo)，可以清楚地了解挖掘模型對(duì)于整個(gè)數(shù)據(jù)集的可靠程度。

以上的相關(guān)內(nèi)容就是對(duì)在SQL Server 2008中驗(yàn)證數(shù)據(jù)挖掘模型的介紹，望你能有所收獲。

【編輯推薦】

批量修改SQL Server 2005表構(gòu)架很簡(jiǎn)單!
對(duì)SQL Server 2005 BI的描述
SQL Server 日期操作全接觸，嘻嘻
SQL Server 易混淆的一些數(shù)據(jù)類型有哪些？
SQL Server數(shù)據(jù)庫正確獲取漢字字串的拼音聲母

新聞名稱：SQLServer2008數(shù)據(jù)庫中正確的對(duì)驗(yàn)證數(shù)據(jù)挖掘模型
標(biāo)題路徑：http://m.5511xx.com/article/dphiodc.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

其他資訊