日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
創(chuàng)新互聯(lián)AI教程:AI人工智能詞袋(BOW)模型

詞袋 - 英文為:Bag of Word(BoW) ,它是自然語(yǔ)言處理中的一個(gè)模型,基本上用于從文本中提取特征,以便文本可用于建模,以便在機(jī)器學(xué)習(xí)算法中使用。

十余年的南山網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開(kāi)發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。營(yíng)銷型網(wǎng)站建設(shè)的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整南山建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。成都創(chuàng)新互聯(lián)公司從事“南山網(wǎng)站設(shè)計(jì)”,“南山網(wǎng)站推廣”以來(lái),每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

現(xiàn)在問(wèn)題出現(xiàn)了,為什么我們需要從文本中提取特征。 這是因?yàn)闄C(jī)器學(xué)習(xí)算法不能處理原始數(shù)據(jù),他們需要數(shù)字?jǐn)?shù)據(jù),以便可以從中提取有意義的信息。 將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)稱為特征提取或特征編碼。

它是怎么運(yùn)行的 這是從文本中提取特征的非常簡(jiǎn)單的方法。 假設(shè)我們有一個(gè)文本文檔,并且希望將其轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)或者說(shuō)想從中提取特征,那么首先這個(gè)模型從文檔中的所有單詞中提取詞匯。 然后通過(guò)使用文檔術(shù)語(yǔ)矩陣,它將建立一個(gè)模型。通過(guò)這種方式,BoW 僅將文件表示為一袋文字。 丟棄關(guān)于文檔中單詞的順序或結(jié)構(gòu)的任何信息。

文檔術(shù)語(yǔ)矩陣的概念

BoW 算法通過(guò)使用文檔術(shù)語(yǔ)矩陣來(lái)建立模型。 顧名思義,文檔術(shù)語(yǔ)矩陣就是文檔中出現(xiàn)的各種字?jǐn)?shù)的矩陣。 在這個(gè)矩陣的幫助下,文本文檔可以表示為各種單詞的加權(quán)組合。 通過(guò)設(shè)置閾值并選擇更有意義的單詞,我們可以構(gòu)建文檔中可用作特征向量的所有單詞的直方圖。 以下是了解文檔術(shù)語(yǔ)矩陣概念的示例 -

示例

假設(shè)有以下兩個(gè)句子 -

  • 句子1 - 正在使用詞袋模型。
  • 句子2 - Bag of Words模型用于提取特征。

現(xiàn)在,通過(guò)考慮這兩句子,有以下13個(gè)不同的單詞 -

  • we
  • are
  • using
  • the
  • bag
  • of
  • words
  • model
  • is
  • used
  • for
  • extracting
  • features

現(xiàn)在,我們需要使用每個(gè)句子中的單詞計(jì)數(shù)為每個(gè)句子建立一個(gè)直方圖 -

  • 子句1 ? [1,1,1,1,1,1,1,1,0,0,0,0,0]
  • 子句2 ? [0,0,0,1,1,1,1,1,1,1,1,1,1]

這樣,就得到了已經(jīng)提取的特征向量。每個(gè)特征向量都是 13 維的,因?yàn)檫@里有 13 個(gè)不同的單詞。

統(tǒng)計(jì)概念

統(tǒng)計(jì)學(xué)的概念稱為 TermFrequency-Inverse Document Frequency(tf-idf)。 每個(gè)單詞在文檔中都很重要。 統(tǒng)計(jì)數(shù)據(jù)有助于我們理解每個(gè)詞的重要性。

術(shù)語(yǔ)頻率(tf) 這是衡量每個(gè)單詞出現(xiàn)在文檔中的頻率。 它可以通過(guò)將每個(gè)詞的計(jì)數(shù)除以給定文檔中的詞的總數(shù)來(lái)獲得。

逆文檔頻率(idf) 這是衡量在給定的文檔集中這個(gè)文檔有多獨(dú)特的一個(gè)單詞。要計(jì)算 idf 和制定一個(gè)特征向量,我們需要減少像這樣的常見(jiàn)詞的權(quán)重,并權(quán)衡稀有詞。

在NLTK中建立一個(gè)詞袋模型

在本節(jié)中,我們將使用 CountVectorizer 從這些句子中創(chuàng)建矢量來(lái)定義字符串集合。

導(dǎo)入必要的軟件包 -

from sklearn.feature_extraction.text import CountVectorizer

現(xiàn)在定義一組句子。

Sentences = ['We are using the Bag of Word model', 'Bag of Word model is
           used for extracting the features.']


vectorizer_count = CountVectorizer()


features_text = vectorizer.fit_transform(Sentences).todense()


print(vectorizer.vocabulary_)

上述程序生成如下所示的輸出。它表明在上述兩句話中有13個(gè)不同的單詞 -

{'we': 11, 'are': 0, 'using': 10, 'the': 8, 'bag': 1, 'of': 7,
 'word': 12, 'model': 6, 'is': 5, 'used': 9, 'for': 4, 'extracting': 2, 'features': 3}

這些是可以用于機(jī)器學(xué)習(xí)的特征向量(文本到數(shù)字形式)。


網(wǎng)頁(yè)名稱:創(chuàng)新互聯(lián)AI教程:AI人工智能詞袋(BOW)模型
當(dāng)前地址:http://m.5511xx.com/article/cdpoioe.html