日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
SQLServer2008數(shù)據(jù)庫中正確的對(duì)驗(yàn)證數(shù)據(jù)挖掘模型

此文章主要向大家講述的是如何正確在SQL Server 2008數(shù)據(jù)庫中正確的對(duì)驗(yàn)證數(shù)據(jù)挖掘模型, 微軟公司的SQL Server 2008數(shù)據(jù)庫主要是將整個(gè)數(shù)據(jù)挖掘流程定義為挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器。

挖掘準(zhǔn)確性圖表和挖掘模型預(yù)測(cè)五個(gè)步驟,本文將討論如何在SQL Server 2008中驗(yàn)證已經(jīng)建好的數(shù)據(jù)挖掘模型。

 

為什么要對(duì)數(shù)據(jù)挖

 

微軟SQL Server 2008將整個(gè)數(shù)據(jù)挖掘流程定義為挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器、挖掘準(zhǔn)確性圖表和挖掘模型預(yù)測(cè)五個(gè)步驟,本文將討論如何在SQL Server 2008中驗(yàn)證已經(jīng)建好的數(shù)據(jù)挖掘模型。

 

1. 為什么要對(duì)數(shù)據(jù)挖掘模型進(jìn)行驗(yàn)證

 

當(dāng)我們建立好一個(gè)數(shù)據(jù)挖掘模型時(shí),并不能保證所建模型能夠直接的解決商業(yè)問題,我們要使用多種方法來評(píng)估和檢驗(yàn)數(shù)據(jù)挖掘模型的質(zhì)量和特征。我們可以將將數(shù)據(jù)分為定型集和測(cè)試集來評(píng)估數(shù)據(jù)挖掘模型。通過將數(shù)據(jù)集分區(qū)為定型集和測(cè)試集時(shí),定型集是取大多數(shù)數(shù)據(jù),小部分?jǐn)?shù)據(jù)用于測(cè)試。

通過對(duì)全部數(shù)據(jù)的整體數(shù)據(jù)抽樣,我們要保證定型集和測(cè)試集的相似。通過使用相似的數(shù)據(jù)來進(jìn)行定型和測(cè)試,可以更好得驗(yàn)證數(shù)據(jù)挖掘模型。

驗(yàn)證數(shù)據(jù)挖掘模型主要是從準(zhǔn)確性、可靠性和有用性這三個(gè)方面入手。準(zhǔn)確性是數(shù)據(jù)挖掘模型與所提供數(shù)據(jù)中的屬性的結(jié)果相關(guān)聯(lián)程度的度量值。可靠性是評(píng)估數(shù)據(jù)挖掘模型處理不同數(shù)據(jù)集的方法。有用性包括了模型是否提供了有用信息的各種指標(biāo),比如說有些數(shù)據(jù)挖掘模型在數(shù)據(jù)上是成功的,但是實(shí)際上沒有意義。

在SQL Server 2008中的挖掘模型驗(yàn)證方法可以用繪制模型準(zhǔn)確性圖表,挖掘模型的交叉驗(yàn)證等方法來進(jìn)行模型驗(yàn)證。

2. 挖掘模型的準(zhǔn)確性圖表

SQL Server 2008中的挖掘模型的準(zhǔn)確性圖表主要有提升圖、利潤圖、散點(diǎn)圖、分類矩陣和交叉驗(yàn)證報(bào)表。

提升圖比較每個(gè)模型的預(yù)測(cè)的準(zhǔn)確性,可配置為顯示通用預(yù)測(cè)的準(zhǔn)確性或特定值預(yù)測(cè)的準(zhǔn)確性。提升圖是用來顯示挖掘模型所引起的提升變化的圖形表現(xiàn)形式。數(shù)據(jù)挖掘模型的結(jié)果都是介于隨機(jī)推測(cè)模型和精確無誤的預(yù)測(cè)模型之間的,與隨機(jī)模型相比,任何提高都可以視為提升。提升圖可以有效地估計(jì)例如客戶回復(fù)郵件這類模型的準(zhǔn)確性效果。如圖1所示。

利潤圖是與提升圖包含相同信息的相關(guān)圖表類型,但利潤圖還顯示與使用每個(gè)模型相關(guān)聯(lián)的利潤預(yù)計(jì)增長。利潤圖中包含一條灰線豎線,用于標(biāo)記目標(biāo)總體的百分比。挖掘圖例會(huì)隨著灰色豎線的移動(dòng)更新并顯示百分比值。利潤圖可以指示若要獲得***利潤,應(yīng)確定預(yù)測(cè)為多少幾率的屬性,諸如此類的問題。如圖2所示。

如果模型包含可預(yù)測(cè)連續(xù)性的屬性,系統(tǒng)會(huì)自動(dòng)顯示散點(diǎn)圖。所謂散點(diǎn)圖,就是通過圖形對(duì)照顯示模型中的實(shí)際值和預(yù)測(cè)值。X軸表示實(shí)際值,Y軸表示預(yù)測(cè)值,圖中間的一條直線表示在***預(yù)測(cè)的情況下,預(yù)測(cè)值和實(shí)際值完全匹配。散點(diǎn)圖通過將連續(xù)性的輸入屬性視為獨(dú)立變量,預(yù)測(cè)屬性視為依賴變量,圖形顯示了結(jié)果與輸出的緊密程度。如圖3所示。

在分類矩陣中,每個(gè)矩陣的行表示模型的預(yù)測(cè)值,而列則表示實(shí)際值。分類矩陣是通過將所有事例分揀到各類別中創(chuàng)建的。這些類別可以是“假正”、“真正”、“假負(fù)”和“真負(fù)”。通過對(duì)每個(gè)類別中的所有事例進(jìn)行計(jì)數(shù),并在矩陣中顯示總計(jì)。

通過對(duì)分類矩陣的查看,可以快速查看模型作出正確預(yù)測(cè)的頻率。分類矩陣主要用于評(píng)估模型所進(jìn)行的預(yù)測(cè)是否有效,可以通過已知其預(yù)測(cè)值的數(shù)據(jù)集進(jìn)行測(cè)試,我們一般使用在創(chuàng)建模型結(jié)構(gòu)時(shí)設(shè)定的測(cè)試集做測(cè)試,通過對(duì)測(cè)試集得比對(duì),可以快速確定模型預(yù)測(cè)預(yù)期值的次數(shù)。

3.交叉驗(yàn)證

 

在創(chuàng)建了數(shù)據(jù)挖掘模型后,交叉驗(yàn)證用來確定模型的有效性。通過交叉驗(yàn)證,我們可以驗(yàn)證挖掘模型的可靠性,評(píng)估該模型以及統(tǒng)計(jì)并標(biāo)識(shí)***的模型。

我們通過交叉驗(yàn)證可以了解挖掘模型對(duì)于整個(gè)數(shù)據(jù)集的可靠程度,交叉驗(yàn)證可以將挖掘結(jié)構(gòu)分區(qū)為交叉部分,并針對(duì)數(shù)據(jù)的每個(gè)交叉部分循環(huán)定型和測(cè)試模型。我們可以把數(shù)據(jù)劃分到其中的每個(gè)分區(qū),每個(gè)分區(qū)將依次用作測(cè)試數(shù)據(jù),而其余的數(shù)據(jù)用于為新模型定型。

然后系統(tǒng)會(huì)為每個(gè)模型生成一組標(biāo)準(zhǔn)準(zhǔn)確性指標(biāo)。通過比較為每個(gè)交叉部分生成的模型的指標(biāo),可以清楚地了解挖掘模型對(duì)于整個(gè)數(shù)據(jù)集的可靠程度。

以上的相關(guān)內(nèi)容就是對(duì)在SQL Server 2008中驗(yàn)證數(shù)據(jù)挖掘模型的介紹,望你能有所收獲。

【編輯推薦】

  1. 批量修改SQL Server 2005表構(gòu)架很簡(jiǎn)單!
  2. 對(duì)SQL Server 2005 BI的描述
  3. SQL Server 日期操作全接觸,嘻嘻
  4. SQL Server 易混淆的一些數(shù)據(jù)類型有哪些?
  5. SQL Server數(shù)據(jù)庫正確獲取漢字字串的拼音聲母

 


新聞名稱:SQLServer2008數(shù)據(jù)庫中正確的對(duì)驗(yàn)證數(shù)據(jù)挖掘模型
標(biāo)題路徑:http://m.5511xx.com/article/dphiodc.html