新聞中心
要統(tǒng)計(jì)詞頻,可以使用Python中的字典(dictionary)數(shù)據(jù)結(jié)構(gòu),下面是一個(gè)簡(jiǎn)單的步驟:

目前創(chuàng)新互聯(lián)已為1000+的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬空間、網(wǎng)站托管維護(hù)、企業(yè)網(wǎng)站設(shè)計(jì)、和政網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。
1、導(dǎo)入所需的庫(kù)
import re from collections import defaultdict
這里我們使用了re庫(kù)來(lái)進(jìn)行正則表達(dá)式操作,defaultdict是Python的內(nèi)置字典類型,可以方便地處理不存在的鍵值。
2、定義文本和分詞規(guī)則
text = "這是一段示例文本,這段文本將用于演示詞頻統(tǒng)計(jì)的方法。" words = re.findall(r'w+', text)
我們定義了一個(gè)示例文本text,然后使用正則表達(dá)式re.findall來(lái)提取所有的單詞,這里的正則表達(dá)式w+表示匹配一個(gè)或多個(gè)字母、數(shù)字或下劃線。
3、創(chuàng)建默認(rèn)字典并統(tǒng)計(jì)詞頻
word_count = defaultdict(int)
for word in words:
word_count[word] += 1
這里我們創(chuàng)建了一個(gè)默認(rèn)字典word_count,并將默認(rèn)值設(shè)置為0,遍歷每個(gè)單詞,將其作為鍵添加到字典中,并將其對(duì)應(yīng)的值加1,由于使用了默認(rèn)字典,如果某個(gè)單詞在字典中不存在,它會(huì)被自動(dòng)初始化為0。
4、輸出詞頻結(jié)果
for word, count in word_count.items():
print(f"{word}: {count}")
我們遍歷字典中的鍵值對(duì),并按照指定的格式輸出每個(gè)單詞及其對(duì)應(yīng)的詞頻。
完整的代碼如下所示:
import re
from collections import defaultdict
text = "這是一段示例文本,這段文本將用于演示詞頻統(tǒng)計(jì)的方法。"
words = re.findall(r'w+', text)
word_count = defaultdict(int)
for word in words:
word_count[word] += 1
for word, count in word_count.items():
print(f"{word}: {count}")
運(yùn)行以上代碼,你將會(huì)得到示例文本中每個(gè)單詞的詞頻統(tǒng)計(jì)結(jié)果。
文章名稱:python如何統(tǒng)計(jì)詞頻
網(wǎng)址分享:http://m.5511xx.com/article/cdepoeg.html


咨詢
建站咨詢
