日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
ChatGPT技術(shù)解構(gòu)
文章摘要: 使用有監(jiān)督學(xué)習(xí)方式,基于GPT3.5微調(diào)訓(xùn)練一個初始模型;訓(xùn)練數(shù)據(jù)約為2w~3w量級根據(jù)InstructGPT的訓(xùn)練數(shù)據(jù)量級估算,參照P33 Table6),由標注師分別扮演用戶和聊天機器人,產(chǎn)生人工精標的多輪對話數(shù)據(jù);值得注意的是,在人類扮演聊天機器人時,會得到機器生成的一些建議來幫助人類撰寫自己的回復(fù),以此提高撰寫標注效率。以上精標的訓(xùn)練數(shù)據(jù)雖然數(shù)據(jù)量不大,但質(zhì)量和多樣性非常高,且來自真實世界數(shù)據(jù),這是很關(guān)鍵的一點。

ChatGPT的訓(xùn)練主要分為三個步驟,如圖所示:

創(chuàng)新互聯(lián)主要從事網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)烏當,十余年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):18980820575

Step1:

使用有監(jiān)督學(xué)習(xí)方式,基于GPT3.5微調(diào)訓(xùn)練一個初始模型;訓(xùn)練數(shù)據(jù)約為2w~3w量級(根據(jù)InstructGPT的訓(xùn)練數(shù)據(jù)量級估算,參照https://arxiv.org/pdf/2203.02155.pdf?P33 Table6),由標注師分別扮演用戶和聊天機器人,產(chǎn)生人工精標的多輪對話數(shù)據(jù);值得注意的是,在人類扮演聊天機器人時,會得到機器生成的一些建議來幫助人類撰寫自己的回復(fù),以此提高撰寫標注效率。

以上精標的訓(xùn)練數(shù)據(jù)雖然數(shù)據(jù)量不大,但質(zhì)量和多樣性非常高,且來自真實世界數(shù)據(jù),這是很關(guān)鍵的一點。經(jīng)過第一步,微調(diào)過的GPT3.5初步具備了理解人類Prompt所包含意圖的能力,可以根據(jù)不同意圖給出高質(zhì)量的回答。

Step2:

收集相同上文下,根據(jù)回復(fù)質(zhì)量進行排序的數(shù)據(jù):即隨機抽取一大批Prompt,使用第一階段微調(diào)模型,產(chǎn)生多個不同回答,之后標注人員對結(jié)果排序,形成??組訓(xùn)練數(shù)據(jù)對,使用pairwise loss來訓(xùn)練Reward Model,從而可以預(yù)測出標注者更喜歡哪個輸出。這種比較學(xué)習(xí)可以給出相對精確的reward值。

這一步使得ChatGPT從命令驅(qū)動轉(zhuǎn)向了意圖驅(qū)動。訓(xùn)練數(shù)據(jù)不需過多,維持在萬量級即可,因為它不需要窮盡所有的問題,只是要告訴模型人類的喜好,強化模型意圖驅(qū)動的能力。

Step3:

使用PPO來微調(diào)第一階段的模型。核心思想是隨機抽取新的Prompt,用第二階段的Reward Model給產(chǎn)生的回答打分,這個分數(shù)即回答的整體reward;進而將此reward回傳,由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù);整個過程迭代數(shù)次直到模型收斂。

以上三個步合稱為文獻中提到的?RLHF(Reinforcement Learning from Human Feedback) 技術(shù)。

相關(guān)技術(shù)

InstructGPT

ChatGPT是InstructGPT的兄弟模型(sibling model),后者經(jīng)過訓(xùn)練以遵循Prompt中的指令,提供詳細的響應(yīng)。InstructGPT是OpenAI在今年3月在Training language models to follow instructions with human feedback中提出的模型,整體流程和以上的ChatGPT流程基本相同,除了在數(shù)據(jù)收集和基座模型(GPT3 vs GPT 3.5),以及第三步初始化PPO模型時略有不同。

在InstuctGPT的工作中,與ChatGPT類似,給定Instruction,需要人工寫回答。首先訓(xùn)練一個InstructGPT的早期版本,使用完全人工標注的數(shù)據(jù),數(shù)據(jù)分為3類:Instruction+Answer,Instruction+多個examples和用戶在使用API過程中提出的需求。從第二類數(shù)據(jù)的標注,推測ChatGPT可能用檢索來提供多個In Context Learning的示例,供人工標注。剩余步驟與以上ChatGPT相同。

尤其需要重視但往往容易被忽視的,即OpenAI對于數(shù)據(jù)質(zhì)量和數(shù)據(jù)泛化性的把控,這也是OpenAI的一大優(yōu)勢:

1)尋找高質(zhì)量標注者:尋找在識別和回應(yīng)敏感提示的能力篩選測試中,表現(xiàn)良好的labeler;

2)使用集外標注者保證泛化性:即用未經(jīng)歷以上1)步驟的更廣大群體的標注者對訓(xùn)練數(shù)據(jù)進行驗證,保證訓(xùn)練數(shù)據(jù)與更廣泛群體的偏好一致。

在完成以上工作后,我們可以來看看InstuctGPT與GPT3的區(qū)別,通過下圖可以明顯看出:

GPT3的回答簡短,回復(fù)過于通用毫無亮點;而InstructGPT“侃侃而談”,解釋自由主義為何愚蠢,顯然模型學(xué)到了對于此類問題人們更想要的長篇大論的回答。

GPT3只是個語言模型,它被用來預(yù)測下一個單詞,絲毫沒有考慮用戶想要的答案;當使用代表用戶喜好的三類人工標注為微調(diào)數(shù)據(jù)后,1.3B參數(shù)的InstructGPT在多場景下的效果超越175B的GPT3:?

InstuctGPT的工作具有開創(chuàng)性,它挖掘了GPT3學(xué)到的海量數(shù)據(jù)中的知識和能力,但這些僅通過快速的In-context的方式較難獲得;可以說,InstuctGPT找到了一種面向主觀任務(wù)來解鎖GPT3強大語言能力的方式。

PPO

PPO(Proximal Policy Optimization) 一種新型的Policy Gradient算法(Policy Gradient是一種強化學(xué)習(xí)算法,通過優(yōu)化智能體的行為策略來解決在環(huán)境中實現(xiàn)目標的問題)。我們只需了解普通的Policy Gradient算法對步長十分敏感,但是又難以選擇合適的步長,在訓(xùn)練過程中新舊策略的的變化差異如果過大則不利于學(xué)習(xí)。

而PPO提出了新的目標函數(shù)可以在多個訓(xùn)練步驟實現(xiàn)小批量的更新,解決了Policy Gradient算法中步長難以確定的問題。由于其實現(xiàn)簡單、性能穩(wěn)定、能同時處理離散/連續(xù)動作空間問題、利于大規(guī)模訓(xùn)練等優(yōu)勢,近年來收到廣泛的關(guān)注,同時也成為OpenAI默認強化學(xué)習(xí)算法。

GPT與強化學(xué)習(xí)

再往前回溯,其實在2019年GPT2出世后,OpenAI就有嘗試結(jié)合GPT-2和強化學(xué)習(xí)。在NIPS2020的Learning to Summarize with Human Feedback中,OpenAI對于摘要生成任務(wù),利用了人類反饋對強化學(xué)習(xí)模型進行訓(xùn)練。可以從這篇工作的整體流程圖中,看出三步走的核心思想: 收集反饋數(shù)據(jù) -> 訓(xùn)練獎勵模型 -> PPO強化學(xué)習(xí)。

RLHF第一階段,針對多個候選摘要,人工排序(這里就體現(xiàn)出OpenAI的鈔能力,按標注時間計費,標注過快的會被開除);第二階段,訓(xùn)練排序模型(依舊使用GPT模型);第三階段,利用PPO算法學(xué)習(xí)Policy(在摘要任務(wù)上微調(diào)過的GPT)。

文中模型可以產(chǎn)生比10倍大模型容量更好的摘要效果。但文中也同樣指出,模型的成功部分歸功于增大了Reward Model的規(guī)模,而這需要很大量級的計算資源,訓(xùn)練6.7B的強化學(xué)習(xí)模型需要320 GPU-days的成本。

另一篇2020年初的工作,是OpenAI的Fine-Tuning GPT-2 from Human Preferences。同樣首先利用預(yù)訓(xùn)練模型,訓(xùn)練Reward模型;進而使用PPO策略進行強化學(xué)習(xí),整體步驟初見ChatGPT的雛形。

而RLHF的思想,是在更早的2017年6月的OpenAI Deep Reinforcement Learning from Human Preferences提出,核心思想是利用人類的反饋,判斷最接近視頻行為目標的片段,通過訓(xùn)練來找到最能解釋人類判斷的獎勵函數(shù),然后使用RL來學(xué)習(xí)如何實現(xiàn)這個目標。

可以說,ChatGPT是站在InstructGPT以及以上理論的肩膀上完成的一項出色的工作,它們將LLM (large language model) / PTM (pretrain language model) 與 RL (reinforcement learning) 出色結(jié)合,證明這個方向可行。

WebGPT和CICERO

WebGPT是2021年底OpenAI的工作,其核心思想是使用GPT3模型強大的生成能力,學(xué)習(xí)人類使用搜索引擎的一系列行為,通過訓(xùn)練獎勵模型來預(yù)測人類的偏好,使WebGPT可以自己搜索網(wǎng)頁來回答開放域的問題,而產(chǎn)生的答案盡可能滿足人類的喜好。

Cicero是Meta AI上個月發(fā)布的可以以人類水平玩文字策略游戲的AI系統(tǒng), 其同樣可以與人類互動,可以使用戰(zhàn)略推理和自然語言與人類在游戲玩法中進行互動和競爭。Cicero的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅(qū)動的,而戰(zhàn)略推理引擎集中使用了RL,對話引擎與GPT3類似。

應(yīng)用難點

對于ChatGPT的規(guī)模,目前沒有更多信息支撐,所以無法明確如此智能的ChatGPT是在何規(guī)模下達成的。 最早的175B的GPT-3代號是Davinci,其他大小的模型有不同的代號。然而自此之后的代號幾乎是一片迷霧,不僅沒有任何論文,官方的介紹性博客也沒有。OpenAI稱Davinci-text-002/003是GPT-3.5,而它們均為InstrucGPT類型的模型,ChatGPT是基于其中一個微調(diào)模型得到,固由此推測ChatGPT可能是千億模型。

大家一般沒有機會接觸千億模型(Bloom之前沒有開源的千億模型,GPT-3也是收費的),不了解現(xiàn)在千億模型的能力邊界,對全量微調(diào)這個級別的模型也無從估計。ChatGPT的推斷成本是比較高的。根據(jù)GPT3.5(Davinci)的成本推測:

1k tokens≈700 words為0.02美元,則換算后,一篇2k字的文章,直接調(diào)用需要0.4人民幣,若保守按照日活1w用戶,人均10篇文章計算,則每日調(diào)用成本為:10000x10x0.4=40000元。

和以前的模型比較,以BERT和T5為代表的早期Transformer和現(xiàn)在的大模型已不是一個量級。事實上11月28日OpenAI上新了text-davinci-003幾乎沒有引起國內(nèi)的任何討論,如果ChatGPT(11.30發(fā)布)不是免費試用,或許也不會引起這么大的反響。

同一時期的工作還有Deepmind的Sparrow和Google的LaMDA,效果與ChatGPT應(yīng)該不相上下。同樣以上提到的WebGPT和Cicero也在國內(nèi)沒有太大的水花。這兩年LLM發(fā)展已經(jīng)到了這個層級,或許因為成本或者工程化難度的問題,某種層面上在國內(nèi)被忽視了。而此次ChatGPT正好找到了好的“曝光點”,一炮而紅。

從OpenAI的成功可以看出,優(yōu)秀的數(shù)據(jù)是一種極大的優(yōu)勢——除去技術(shù)上的考量,OpenAI很少開源數(shù)據(jù),顯然他們在數(shù)據(jù)上也下了大功夫,訓(xùn)練語料質(zhì)量和開源的C4或The Pile不能同日而語;對于我們目前核心使用的擴增模型,Bloom作為千億模型有很多待挖掘的能力。Bloom的微調(diào)任務(wù)中缺乏生成式的對話和問答,某些表現(xiàn)不如ChatGPT也在預(yù)料之中(實際上在Bloom的測試中,唯一與InstructGPT有重合的任務(wù),是Bloom表現(xiàn)更好)。但是對于很多任務(wù)來說,配合In-context Learning,這個差距會被進一步縮小。

所以,我們應(yīng)該思考如何利用這些令人激動的最新成果,而其中關(guān)鍵是如何找到適合我們?nèi)肟诘姆绞?。比如使用ChatGPT,按不同需求生成高質(zhì)量小樣本數(shù)據(jù),克服現(xiàn)有數(shù)據(jù)難獲得的瓶頸;進而利用現(xiàn)有Bloom(GPT3模型)進行數(shù)據(jù)擴增。


分享題目:ChatGPT技術(shù)解構(gòu)
本文路徑:http://m.5511xx.com/article/cdgdpij.html