日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
機(jī)器學(xué)習(xí)=「新瓶裝舊酒」的數(shù)據(jù)統(tǒng)計(jì)?No!

最近,關(guān)于深度學(xué)習(xí)和人工智能的一個(gè)梗在社交媒體上廣為流傳,認(rèn)為二者只是墻上一道鑲了嶄新邊框的裂縫,暗諷機(jī)器學(xué)習(xí)只是重新包裝過(guò)的統(tǒng)計(jì)學(xué),本質(zhì)上是「新瓶裝舊酒」。然而事實(shí)真的是這樣嗎?本文對(duì)這種看法提出了異議,認(rèn)為機(jī)器學(xué)習(xí) ≠ 數(shù)據(jù)統(tǒng)計(jì),深度學(xué)習(xí)為我們處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題做出了重大貢獻(xiàn),而人工智能應(yīng)該得到其應(yīng)得的贊賞。

隨著深度學(xué)習(xí)的熱度開(kāi)始消退,這個(gè)梗最近開(kāi)始在社交媒體上廣為流傳,引起了互聯(lián)網(wǎng)上眾人的譏笑。機(jī)器學(xué)習(xí)沒(méi)什么好激動(dòng)的,它只是對(duì)統(tǒng)計(jì)技術(shù)的一種補(bǔ)充——這種觀點(diǎn)越來(lái)越普遍;但問(wèn)題是這個(gè)觀點(diǎn)并不正確。

我明白,成為一個(gè)極度狂熱的深度學(xué)習(xí)傳播者并不時(shí)尚。哪怕是 2013 年試圖讓所有人都知道深度學(xué)習(xí)的機(jī)器學(xué)習(xí)專家,現(xiàn)在再提起這個(gè)術(shù)語(yǔ)也只有失望,他們現(xiàn)在更傾向于弱化現(xiàn)代神經(jīng)網(wǎng)絡(luò)的力量,唯恐人們將他們與還認(rèn)為「import keras」是萬(wàn)金油的人混為一談。而他們自認(rèn)為與后者相比,自己還是相當(dāng)有優(yōu)勢(shì)的。

雖然正如 Yann LeCun 所說(shuō),深度學(xué)習(xí)已經(jīng)不再是一個(gè)時(shí)髦的詞,但這種矯枉過(guò)正的態(tài)度已經(jīng)對(duì)人工智能的進(jìn)步、未來(lái)和實(shí)用性產(chǎn)生了不良的影響。這一點(diǎn)在關(guān)于人工智能寒冬的討論中體現(xiàn)得尤為明顯,在這個(gè)寒潮里,人工智能被預(yù)言將會(huì)像幾十年前一樣停滯多年。

然而這篇文章并不是對(duì)人工智能進(jìn)入寒冬表示質(zhì)疑,也不是想說(shuō)深度學(xué)習(xí)的進(jìn)步更應(yīng)歸功于哪個(gè)學(xué)術(shù)團(tuán)隊(duì);相反,它只是想說(shuō),人工智能應(yīng)該得到其應(yīng)得的贊賞;它發(fā)展的水平已經(jīng)超越超級(jí)計(jì)算機(jī)和更優(yōu)的數(shù)據(jù)集;機(jī)器學(xué)習(xí)最近也在深度神經(jīng)網(wǎng)絡(luò)和相關(guān)工作中取得了巨大成功,代表了世界上最技術(shù)水平。

機(jī)器學(xué)習(xí)≠數(shù)據(jù)統(tǒng)計(jì)

「融資的時(shí)候, 我們講人工智能 ;找工作的時(shí)候,我們說(shuō)深度學(xué)習(xí);但做項(xiàng)目的時(shí)候,我們講 logistic 回歸。」

——推特上每個(gè)人都這么說(shuō)

這篇文章的主題是,機(jī)器學(xué)習(xí)不僅是對(duì)數(shù)據(jù)統(tǒng)計(jì)的再包裝——這一領(lǐng)域有更大型的計(jì)算機(jī)和更好聽(tīng)的名字。這個(gè)概念來(lái)源于統(tǒng)計(jì)學(xué)的概念和術(shù)語(yǔ),這些概念和術(shù)語(yǔ)在機(jī)器學(xué)習(xí)中非常常見(jiàn),像回歸、權(quán)重、偏置、模型等等。此外,很多模型近似統(tǒng)計(jì)函數(shù):分類模型的 softmax 輸出由 logits 組成,使得圖像分類器的訓(xùn)練過(guò)程成為 logistic 回歸。

盡管這種思路在技術(shù)層面是對(duì)的,但將機(jī)器學(xué)習(xí)作為一個(gè)整體看作只是統(tǒng)計(jì)學(xué)的一個(gè)分支還為時(shí)過(guò)早。這種比較沒(méi)有什么意義。統(tǒng)計(jì)學(xué)是處理數(shù)據(jù)和解釋數(shù)據(jù)的數(shù)學(xué)領(lǐng)域。機(jī)器學(xué)習(xí)只不過(guò)是一種計(jì)算算法(誕生于計(jì)算機(jī)科學(xué))。很多情況下,這些算法在幫助理解數(shù)據(jù)方面毫無(wú)用處,只能幫助某些類型的不可理解的預(yù)測(cè)建模。例如在強(qiáng)化學(xué)習(xí)中,算法可能都不會(huì)使用已有的數(shù)據(jù)集。另外,在圖像處理中,將圖像視為以像素為特征的數(shù)據(jù)集,從一開(kāi)始就有點(diǎn)牽強(qiáng)。

問(wèn)題的關(guān)鍵當(dāng)然不在于這個(gè)榮譽(yù)應(yīng)該屬于計(jì)算科學(xué)家還是屬于統(tǒng)計(jì)學(xué)家;就像其它領(lǐng)域一樣,能取得今天的成功是各個(gè)學(xué)術(shù)學(xué)科的功勞,其中當(dāng)然包括統(tǒng)計(jì)學(xué)和數(shù)學(xué)。然而,為了正確評(píng)估機(jī)器學(xué)習(xí)方法的巨大影響力和潛力,有必要先打破這個(gè)錯(cuò)誤的觀念:現(xiàn)代人工智能的發(fā)展,無(wú)非就是古老的統(tǒng)計(jì)技術(shù)擁有了更強(qiáng)大的計(jì)算機(jī)和更好的數(shù)據(jù)集。

機(jī)器學(xué)習(xí)無(wú)需高深的統(tǒng)計(jì)學(xué)知識(shí)

先聽(tīng)我說(shuō),入門機(jī)器學(xué)習(xí)的時(shí)候,我幸運(yùn)地選了一門非常棒的課程,是專門講深度學(xué)習(xí)的。這也是我本科計(jì)算機(jī)課程的一部分。我們要完成的一個(gè)項(xiàng)目是在 TensorFlow 上實(shí)現(xiàn)和訓(xùn)練 Wasserstein GAN。

當(dāng)時(shí)我只修了一門必修的統(tǒng)計(jì)學(xué)入門課,但我很快就把大部分內(nèi)容都忘了。不用說(shuō),我的統(tǒng)計(jì)能力并不強(qiáng)。然而,我卻能讀懂一篇最生成機(jī)器學(xué)習(xí)模型的論文,并且從頭實(shí)現(xiàn)了它——通過(guò)在 MS Celebs 數(shù)據(jù)集上訓(xùn)練,生成了能以假亂真的虛擬圖像。

在整個(gè)課程中,我和同學(xué)們成功地訓(xùn)練了針對(duì)癌癥組織的圖像分割、神經(jīng)機(jī)器翻譯、基于字符的文本生成以及圖像轉(zhuǎn)換的模型,這些模型都采用了近幾年剛剛發(fā)明的尖端機(jī)器學(xué)習(xí)技術(shù)。

然而,你要是問(wèn)我或者我的同學(xué)如何計(jì)算一組數(shù)據(jù)的方差,或者定義邊緣概率,我們應(yīng)該會(huì)交個(gè)白卷。

這似乎與人工智能只是對(duì)古老統(tǒng)計(jì)技術(shù)的重新包裝的觀點(diǎn)有些矛盾。

的確,在深度學(xué)習(xí)課程中,機(jī)器學(xué)習(xí)專家的統(tǒng)計(jì)基礎(chǔ)可能比計(jì)算機(jī)專業(yè)的本科生更強(qiáng)。一般來(lái)說(shuō),信息論需要對(duì)數(shù)據(jù)和概率有很深的理解,所以我建議,所有想成為數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師的人最好能夠?qū)y(tǒng)計(jì)概念有直觀的理解。但問(wèn)題是:如果機(jī)器學(xué)習(xí)只是統(tǒng)計(jì)學(xué)的分支,那么沒(méi)有統(tǒng)計(jì)學(xué)背景的人怎么能對(duì)最前沿的機(jī)器學(xué)習(xí)概念有深入的理解呢?

還應(yīng)該承認(rèn),許多機(jī)器學(xué)習(xí)算法對(duì)統(tǒng)計(jì)學(xué)與概率學(xué)背景知識(shí)的要求比多數(shù)神經(jīng)網(wǎng)絡(luò)技術(shù)要高,但這些方法通常也被稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)或者統(tǒng)計(jì)學(xué)習(xí),好像是想與常規(guī)的統(tǒng)計(jì)類別區(qū)別開(kāi)。并且,近年來(lái)大多數(shù)機(jī)器學(xué)習(xí)中的的炒作性創(chuàng)新都來(lái)自神經(jīng)網(wǎng)絡(luò)領(lǐng)域,所以這點(diǎn)無(wú)關(guān)緊要。

當(dāng)然,機(jī)器學(xué)習(xí)并不是遺世獨(dú)立的。在現(xiàn)實(shí)世界中,任何想要做機(jī)器學(xué)習(xí)的人都可能在研究許多類別的數(shù)據(jù)問(wèn)題,因此也需要對(duì)統(tǒng)計(jì)學(xué)科有較深的理解。這并不是說(shuō)機(jī)器學(xué)習(xí)從不使用或構(gòu)建統(tǒng)計(jì)概念,這說(shuō)的不是一回事。

機(jī)器學(xué)習(xí)=表示+評(píng)估+優(yōu)化

客觀來(lái)說(shuō),我和我的同學(xué)在算法、計(jì)算復(fù)雜度、優(yōu)化策略、微積分、線性代數(shù)甚至概率論方面基礎(chǔ)都很好。我想說(shuō)的是,比起高級(jí)統(tǒng)計(jì)學(xué)知識(shí),這些與我們正在解決的問(wèn)題更加相關(guān)。

機(jī)器學(xué)習(xí)是一類反復(fù)「學(xué)習(xí)」某類函數(shù)近似值的計(jì)算算法。華盛頓大學(xué)計(jì)算科學(xué)教授 Pedro Domingos 曾列出構(gòu)成機(jī)器學(xué)習(xí)算法的三大組成部分:表示、評(píng)估和優(yōu)化。

表示涉及從一個(gè)空間到另一個(gè)更有效空間的輸入傳輸,解釋起來(lái)更加容易。請(qǐng)從卷積神經(jīng)網(wǎng)絡(luò)的視角考慮這個(gè)問(wèn)題。原始像素在區(qū)分貓和狗上是沒(méi)有用的,所以我們將其轉(zhuǎn)換為更有效的表達(dá)形式(如 softmax 輸出中的 logits),這樣就可以解釋和評(píng)估了。

評(píng)估實(shí)際上就是損失函數(shù)。你的算法如何有效地將數(shù)據(jù)轉(zhuǎn)換到另一個(gè)更有效的空間上去?softmax 輸出和 one-hot 編碼標(biāo)簽(分類)到底有多么相似?你能否正確預(yù)測(cè)展開(kāi)的文本序列(文本 RNN)的下一個(gè)單詞?隱藏分布與單位高斯分布的偏離有多遠(yuǎn)(VAE)?這些問(wèn)題都告訴你表達(dá)函數(shù)性能如何;更重要的是,它們定義了它需要學(xué)習(xí)做什么。

優(yōu)化是整個(gè)拼圖的最后一塊。一旦有了評(píng)估部分,你就可以優(yōu)化表達(dá)函數(shù),以改進(jìn)評(píng)估標(biāo)準(zhǔn)。在神經(jīng)網(wǎng)絡(luò)中,這意味著使用隨機(jī)梯度下降的一些變體來(lái)根據(jù)給定的損失函數(shù)更新網(wǎng)絡(luò)的權(quán)重和偏置。你有世界上最好的圖像分類器(起碼 2012 年的 Geoffrey Hinton 有)。

在訓(xùn)練圖像分類器時(shí),除了定義適當(dāng)?shù)膿p失函數(shù)外,學(xué)習(xí)的表達(dá)函數(shù)是否有邏輯輸出無(wú)關(guān)緊要。像 logistic 回歸這樣的統(tǒng)計(jì)學(xué)術(shù)語(yǔ)在我們討論模型空間時(shí)確實(shí)也有些作用,但在優(yōu)化問(wèn)題和數(shù)據(jù)理解問(wèn)題上都沒(méi)有被重新定義。

附言:人工智能這個(gè)詞挺蠢的。人工智能問(wèn)題只是計(jì)算機(jī)目前還不善解決的一個(gè)問(wèn)題。在十九世紀(jì),機(jī)械計(jì)算機(jī)也曾被認(rèn)為是智能的?,F(xiàn)在這個(gè)術(shù)語(yǔ)與深度學(xué)習(xí)聯(lián)系如此緊密,我們就開(kāi)始說(shuō)通用人工智能(AGI)是比模式匹配機(jī)制更智能的東西。然而,我們對(duì)通用智能還沒(méi)有一致的定義或理解。AI 所做的唯一一件事就是激發(fā)人們對(duì)所謂的「奇點(diǎn)」或類似終結(jié)者的殺手機(jī)器人的恐懼。我希望我們可以停止使用這樣一個(gè)空洞的、聳人聽(tīng)聞的術(shù)語(yǔ)來(lái)替代真正的技術(shù)。

深度學(xué)習(xí)的技術(shù)

幾乎所有深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作都忽略了深度學(xué)習(xí)的統(tǒng)計(jì)特性。全連接點(diǎn)由權(quán)重和偏置組成,但卷積層呢?整流激活層?批標(biāo)準(zhǔn)化?殘差層?Dropout?存儲(chǔ)和注意力機(jī)制?

這些創(chuàng)新對(duì)于高性能深度網(wǎng)絡(luò)的發(fā)展至關(guān)重要,但它們與傳統(tǒng)的統(tǒng)計(jì)技術(shù)并不完全一致(可能因?yàn)樗鼈兏静皇墙y(tǒng)計(jì)技術(shù))。如果你不相信我,可以試著告訴統(tǒng)計(jì)學(xué)家你的模型過(guò)擬合了,然后問(wèn)他們把模型的 1 億個(gè)參數(shù)砍掉一半是否行得通。

我們甚至不討論模型的可解釋性。

超過(guò)一億個(gè)變量的回歸——沒(méi)問(wèn)題嗎?

深度網(wǎng)絡(luò)和傳統(tǒng)統(tǒng)計(jì)模型在規(guī)模上是有差異的。深度神經(jīng)網(wǎng)絡(luò)是巨大的。例如,卷積網(wǎng)絡(luò) VGG-16 大約有 1.38 億個(gè)參數(shù)。你覺(jué)得你的普通學(xué)術(shù)導(dǎo)師會(huì)如何回應(yīng)一個(gè)想要對(duì) 1 億多個(gè)變量進(jìn)行多元回歸的學(xué)生?這個(gè)想法很荒謬,因?yàn)橛?xùn)練 VGG-16 不是多元回歸,而是機(jī)器學(xué)習(xí)問(wèn)題。

新前沿

在過(guò)去的幾年里,你可能看了無(wú)數(shù)宣揚(yáng)機(jī)器學(xué)習(xí)可以完成很酷的任務(wù)的論文、帖子、文章,所以我不再贅述了。然而,我要提醒你,深度學(xué)習(xí)不僅比以前的技術(shù)更重要,它還能幫助我們解決一系列全新的問(wèn)題。

在 2012 年之前,涉及非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題充其量只是一項(xiàng)挑戰(zhàn)。僅可訓(xùn)練的 CNN 和 LSTM 就在這方面實(shí)現(xiàn)了巨大飛躍。在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音轉(zhuǎn)錄等領(lǐng)域都取得了相當(dāng)大的進(jìn)步,并且在人臉識(shí)別、自動(dòng)駕駛和 AI 對(duì)話等技術(shù)方面有了很大的提高。

確實(shí),大多數(shù)機(jī)器學(xué)習(xí)算法最終都要將模型擬合到數(shù)據(jù)——從這個(gè)角度看,這是個(gè)統(tǒng)計(jì)過(guò)程。航天飛機(jī)也不過(guò)是一個(gè)帶翅膀的飛行器,但我們并沒(méi)有看到有人嘲笑美國(guó)宇航局在 20 世紀(jì)探索太空,也沒(méi)有人認(rèn)為這是對(duì)飛機(jī)進(jìn)行重新包裝而已。

與太空探索一樣,深度學(xué)習(xí)的出現(xiàn)并沒(méi)有解決世界上所有的問(wèn)題。在許多領(lǐng)域,特別是在「人工智能」領(lǐng)域,仍有很多的事情需要我們?nèi)プ?。也就是說(shuō),它為我們處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題做出了重大貢獻(xiàn)。機(jī)器學(xué)習(xí)會(huì)繼續(xù)引領(lǐng)世界技術(shù)進(jìn)步和創(chuàng)新的前沿,而不僅僅是墻上一道鑲了嶄新邊框的裂縫。


當(dāng)前標(biāo)題:機(jī)器學(xué)習(xí)=「新瓶裝舊酒」的數(shù)據(jù)統(tǒng)計(jì)?No!
瀏覽路徑:http://m.5511xx.com/article/cosijgh.html