新聞中心
如何用一種通俗易懂的方式闡述機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最重要的話題?

創(chuàng)新互聯(lián)主營(yíng)佳木斯網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,app軟件開(kāi)發(fā),佳木斯h5微信小程序開(kāi)發(fā)搭建,佳木斯網(wǎng)站營(yíng)銷推廣歡迎佳木斯等地區(qū)企業(yè)咨詢
人工智能已成為未來(lái)的趨勢(shì)。汽車可以自動(dòng)駕駛,計(jì)算機(jī)在圍棋比賽上打敗了人類,機(jī)器人也在搶走人類的工作。不久后,機(jī)器人將推翻人類的政府,奴役我們的后代……好吧,或許這并不會(huì)發(fā)生。但這樣也回避了問(wèn)題的實(shí)質(zhì):人工智能的極限是什么?
答案顯而易見(jiàn)——這取決于對(duì)人工智能的定義。如果將人工智能定義為只會(huì)下圍棋的電腦,那未來(lái)的圍棋程序會(huì)比現(xiàn)在更先進(jìn)。但可惜的是,沒(méi)有人會(huì)用這個(gè)定義。奔馳在宣傳他們的智能駕駛時(shí),大約不會(huì)是在談?wù)撍麄兊钠嚾绾蜗聡?。但反過(guò)來(lái)說(shuō),你可以像市場(chǎng)營(yíng)銷人員那樣去定義人工智能——你們公司在產(chǎn)品中使用了人工智能,我們的產(chǎn)品也是。沒(méi)人清楚知道我們的產(chǎn)品是如何實(shí)現(xiàn)人工智能的,但它絕對(duì)不是人工智障,所以這就成了。
那么,到底什么是智能呢?經(jīng)過(guò)對(duì)人類大腦、心理學(xué),甚至螞蟻社會(huì)的大量研究,可以得出這樣的結(jié)論——智能包括兩個(gè)主要部分:第一,識(shí)別模式的能力;第二,運(yùn)用這些模式來(lái)實(shí)現(xiàn)目標(biāo)的能力。
對(duì)此有很多解釋,但有一個(gè)例子很清楚地說(shuō)明了這一結(jié)論:想想那些非常聰明的人,比如說(shuō),在數(shù)學(xué)領(lǐng)域非常聰明的人。想象一下這類人在數(shù)學(xué)課上是不是都不太專心——為什么?因?yàn)樗?她知識(shí)吸收地非??臁K?她意識(shí)到了這一模式,并決定在剩下的課堂時(shí)間里不再集中注意力。這些人也可能很快完成作業(yè),因?yàn)樗?她善于將課堂上學(xué)到的知識(shí)(又稱模式)運(yùn)用到作業(yè)中。
這個(gè)定義也適用于其他類型的智能。例如,具有藝術(shù)才能的人似乎能夠識(shí)別出什么將會(huì)是好的藝術(shù),并利用這種直覺(jué)創(chuàng)造新的、好的藝術(shù)。如果這還沒(méi)有足夠的說(shuō)服力,要知道,維基百科也為智能提供了一個(gè)類似的定義,你肯定不想和維基百科爭(zhēng)論,它可是互聯(lián)網(wǎng)上最可靠的知識(shí)來(lái)源。
來(lái)源:boredpanda.com
有一個(gè)專門研究算法的領(lǐng)域,它創(chuàng)建模型,從數(shù)據(jù)中提取模式,并將其應(yīng)用于其他數(shù)據(jù),這就是機(jī)器學(xué)習(xí)。有一個(gè)機(jī)器學(xué)習(xí)中最重要的概念之一——過(guò)度擬合。過(guò)度擬合只是一種花哨的說(shuō)法,表示模型發(fā)現(xiàn)的模式過(guò)于復(fù)雜,導(dǎo)致預(yù)測(cè)未來(lái)點(diǎn)時(shí)出現(xiàn)問(wèn)題。
來(lái)源:wikipedia.org
假設(shè)你的任務(wù)是畫一條線將紅點(diǎn)和藍(lán)點(diǎn)分開(kāi),但是這些點(diǎn)的顏色可能是隨機(jī)性的,也就是數(shù)據(jù)有些混亂。黑線似乎是一個(gè)合理的解決方案,它并沒(méi)有正確地對(duì)所有的點(diǎn)進(jìn)行分類,但其似乎考慮到了邊界上的一些點(diǎn)是可以朝任何方向移動(dòng)的。綠線成功地分離了所有的點(diǎn),但不同之處在于: 我們標(biāo)黃了一些區(qū)域,在這些區(qū)域里,如果是按照綠線劃分,一個(gè)新點(diǎn)會(huì)被歸為紅色,而如果是按照黑線劃分,一個(gè)新點(diǎn)會(huì)被歸為藍(lán)色。
這肯定不是通過(guò)MicrosoftWord完成的。可以使用專業(yè)的軟件,比如Photoshop。
那么,相信大家會(huì)同意這一點(diǎn),即標(biāo)黃區(qū)域更可能包含藍(lán)色而不是紅色的點(diǎn)。這就是過(guò)度擬合——綠線在現(xiàn)有點(diǎn)(訓(xùn)練點(diǎn))上區(qū)分地比較好,但在新的點(diǎn)(測(cè)試點(diǎn))上卻區(qū)分地相對(duì)較差。
我們可以這樣說(shuō),產(chǎn)生綠線的模型在訓(xùn)練點(diǎn)上發(fā)現(xiàn)了太多的模式。這個(gè)模型太善于去發(fā)現(xiàn)模式,所以在應(yīng)用模式時(shí),沒(méi)有意識(shí)到其發(fā)現(xiàn)的模式可能并不適用于新的點(diǎn)。那么,最核心的問(wèn)題在于發(fā)現(xiàn)哪些模式是有效的,哪些只是數(shù)據(jù)自身的干擾。
許多聰明的人試圖用一些非常巧妙的方法來(lái)解決這個(gè)問(wèn)題,他們使用長(zhǎng)方程和大量的希臘字母來(lái)防止模型找到像綠色這樣奇怪的線,這個(gè)步驟叫做正則化。無(wú)論是在訓(xùn)練過(guò)程中添加正則化,還是在模型本身中加入正則化,這些都是改進(jìn)機(jī)器學(xué)習(xí)的方法。
但其實(shí),我們略過(guò)了最重要的一步。在求助于復(fù)雜的數(shù)學(xué)之前,我們忘了問(wèn)“為什么”。是的,總是有關(guān)于“為什么天空是藍(lán)色的”,或者“為什么我們存在于宇宙中”這樣的問(wèn)題,但這些都不是這里提及的問(wèn)題(不是你要尋找的問(wèn)題)。我們更關(guān)心的是為什么智能在一般情況下是有效的。我們?cè)噲D去找出哪種模式能夠奏效,但還沒(méi)有確定為什么任何模式都奏效。為什么下一個(gè)點(diǎn)應(yīng)該是藍(lán)色或紅色;為什么不能是紫色的呢?
事實(shí)上,我們也不知道是誰(shuí)第一個(gè)提出這個(gè)問(wèn)題,但幸運(yùn)的是,都會(huì)有人自始至終決定要想出一個(gè)答案:之所以有些模式能奏效,是因?yàn)槔L制測(cè)試數(shù)據(jù)應(yīng)該獨(dú)立于訓(xùn)練數(shù)據(jù),并且兩者應(yīng)該來(lái)自相同的分布。這只是一種數(shù)學(xué)上的說(shuō)法,測(cè)試模型時(shí),我們不應(yīng)該讓其受不同于訓(xùn)練時(shí)環(huán)境的影響。下一個(gè)點(diǎn)是紫色的可能性很小,是因?yàn)槲覀円呀?jīng)看到了很多點(diǎn),沒(méi)有一個(gè)是紫色的。畢竟,當(dāng)擲一個(gè)六面骰子時(shí),我們不能預(yù)計(jì)一半正面一半反面,但可以預(yù)計(jì)的是,如果以同樣的方式投擲相同的硬幣,應(yīng)該會(huì)得到類似的結(jié)果。借用一句勵(lì)志名言:“如果你總是在做一直在做的事情,就會(huì)得到一直在得到的東西?!?/p>
好吧,這是由Microsoft Word完成的。
這與區(qū)分實(shí)際模式和過(guò)度擬合有什么關(guān)系呢? 如果你注意到上圖,過(guò)度擬合的主要原因是綠線模型試圖擬合了一些異常值。假設(shè)可以通過(guò)某種方式將這些點(diǎn)分組到不同的區(qū)域,其中一些區(qū)域包含異常值并且不符合找到的模式(黃色區(qū)域),而另一些區(qū)域包含確實(shí)符合找到的模式的點(diǎn)(綠色區(qū)域)。
直觀地說(shuō),“綠色”區(qū)域的范圍應(yīng)該更大,包含更多的點(diǎn),并且在預(yù)測(cè)未來(lái)的點(diǎn)時(shí)更準(zhǔn)確。換句話講,如果更多的點(diǎn)出現(xiàn)在“綠色”區(qū)域,我們預(yù)計(jì)它們是紅色的。另一方面,如果更多的點(diǎn)出現(xiàn)在“黃色”區(qū)域,雖然有些會(huì)是紅色的,我們會(huì)認(rèn)為大部分會(huì)是藍(lán)色的。
當(dāng)然,為了得到更多的點(diǎn),我們總是可以收集更多的數(shù)據(jù)。但有時(shí)候,你會(huì)發(fā)現(xiàn)自己只是一個(gè)貧窮的本科生,沒(méi)有別人擁有的經(jīng)費(fèi)、時(shí)間或資源。無(wú)論如何,有時(shí)收集更多的數(shù)據(jù)是不可行的。因此,與其這樣做,我們可以忽略部分訓(xùn)練數(shù)據(jù),并用被我們遺漏的點(diǎn)來(lái)“添加”點(diǎn)!
這也不是一個(gè)新概念——這是使用了驗(yàn)證集(我們?cè)隍?yàn)證集中驗(yàn)證那些模型從訓(xùn)練集中找到的模式)。使用驗(yàn)證集來(lái)確定特定的過(guò)擬合區(qū)域是一種新方法。然而,人們沒(méi)有這樣做是有原因的。
“綠色”區(qū)域看起來(lái)很不錯(cuò),但首先,它們很難找到,其次,這些區(qū)域的構(gòu)建依賴于數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),有些區(qū)域明顯是“綠色”的,有些區(qū)域明顯是“黃色”的,但是有些區(qū)域很難確定顏色,因?yàn)檫@些區(qū)域是圍繞訓(xùn)練數(shù)據(jù)建立的。這個(gè)問(wèn)題的解決方法依賴于與美國(guó)相同的基本原則。如果針對(duì)不同數(shù)據(jù)訓(xùn)練的兩個(gè)模型得到了相同的“黃色”區(qū)域,那就會(huì)很奇怪。
因此,對(duì)于第一個(gè)模型中不確定的區(qū)域,如果基于不同數(shù)據(jù)的模型來(lái)重復(fù)這個(gè)著色過(guò)程,便可以根據(jù)第二個(gè)模型來(lái)決定它們的顏色! 如果這個(gè)模型發(fā)現(xiàn)了相同的區(qū)域,那么我們可以非常肯定它不是偶然發(fā)現(xiàn)的,所以它應(yīng)該是“綠色“的。相反,如果第二個(gè)模型沒(méi)有找到該區(qū)域,那么很可能是干擾,應(yīng)該將其涂成“黃色”。
那么,要如何確定這些區(qū)域呢? 通過(guò)找集群! 你可能會(huì)問(wèn),什么是找集群?
來(lái)源:wikiepdia.org
找集群就是在數(shù)據(jù)中找到集群。如圖所示,找集群就是在數(shù)據(jù)中找到三個(gè)集群。同一集群中的點(diǎn)看起來(lái)與模型相似。如果有多種方法可以轉(zhuǎn)換這些點(diǎn)并在模型中繪制(例如,在神經(jīng)網(wǎng)絡(luò)的每一層中),那么根據(jù)定義,在所有圖中處于相同集群中的點(diǎn)對(duì)模型來(lái)說(shuō)是不可區(qū)分的。這很清晰——如果模型能夠區(qū)分它們,那么它們?cè)谀硞€(gè)時(shí)候就會(huì)在不同的集群中。無(wú)論如何,如果定義了這些總是在同一個(gè)集群中的點(diǎn)的位置,那么現(xiàn)在就有了各自的區(qū)域了!
機(jī)器學(xué)習(xí)就是尋找能夠分離點(diǎn)的算法(還有回歸)。算法傾向于找到綠線,因?yàn)檫@將最小化分類錯(cuò)誤。機(jī)器學(xué)習(xí)的挑戰(zhàn)在于找到一種可以得到黑線的算法,因?yàn)檫@可能在新的點(diǎn)上更有效。正則化,也就是巧妙的數(shù)學(xué),幫助我們得到更接近黑線的東西。
名稱欄目:這幾個(gè)機(jī)器學(xué)習(xí)核心問(wèn)題,不會(huì)數(shù)學(xué)也能搞定!
分享路徑:http://m.5511xx.com/article/cddoddc.html


咨詢
建站咨詢
