大家斷斷續續討論了一兩周,都猜測,也許是因為編程過程與人類逐步解決任務的過程非常類似。
很多難題都不是可以一步到位的,問題也比較複雜,並不能簡單進行答複。
很可能需要分多個層次進行分析,討論各種可能性。
這就和編程當中的if語句有些類似。
模型很可能從代碼的方式中觸類旁通,學會了對不同的假設場景給與不同的應對策略。
而比較整體的代碼項目,又會將一個相對複雜的任務,拆解為數個簡單任務,做成不同的功能。
這一點很可能是大量代碼對大語言模型有很強效果的一大原因。
總得來說,孟繁岐覺得這件事情還是非常有趣的。
這些代碼彆說普通人了,他自己都有很多根本看不懂。
因為收集代碼數據集,涉及的各種不同語言太多,光是比較知名的就有十來種。
大部分程序員能寫個三四種語言,就已經相當不得了了。
並且,即便一位懂得某個語言,他的實力也未必就能看得懂具體的項目。
孟繁岐非常懷疑大模型是否真的理解了每個項目的具體意義,但唯一肯定的是,大量代碼對模型的效果幫助的確很大。
而等到【指令微調】和【代碼訓練】都做完之後,孟繁岐就需要做一種基於人類反饋的強化學習(rlhf)了。
chatgpt與此前各種測試版本的達芬奇35模型相比,一個很大的區彆就是它經過了rlhf。
chatgpt後來很多新的能力,那些顯得非常智能的能力,都是基於人類反饋而誕生的功能。
比如相對詳實的回應,chatgpt相比原始的大語言模型顯得有些囉嗦,它會傾向於給出更為全麵的回答。
並且,對於涉及多方利益的事情,它很喜歡端水,以免顯得過於偏向某一方,顯得是在【站隊】。
以及拒絕不當問題的能力,這也相當程度上依賴人類的反饋去調整模型。
bg大小姐顯得那麼傲嬌,主要就是因為微軟的人在人類反饋上顯得更加傲嬌。
最為神奇的部分,就是chatgpt拒絕回答新事件的能力。它會經常說,自己隻知道101novel.com21年之前的事情,基於人類的反饋使得chatgpt能夠模糊地知曉那些東西在這個時間範圍內,哪些東西並不在內。
雖然chatgpt並不是每一次都能夠判斷正確,但這仍舊是相當神奇的事情,人們至今無法知曉,它究竟是通過什麼方式來判斷某些話題是否在時間範圍內的。
經過前世和現在的大量測試和實驗,closeai認為絕大部分【能力】和【知識】,都是在初次訓練之後,模型已經具備了的。
本小章還未完,請點擊下一頁後麵精彩內容!
不論是【指令微調】還是【rlhf】,都隻是【解鎖】了模型的能力。
得出這個結論是因為,對比訓練時候使用的無敵龐大數據來說,做【指令微調】又或者是【rlhf】,所使用的數據和計算量都是相對要小很多的。
換句話來說,這種微調工作,其實最大的一個效果是【讓模型知道它不知道什麼】。
這句話可能有些拗口,但是對一個大語言模型來說,讓模型清楚的知道自己懂什麼,不懂什麼,其實是一件非常困難的事情。
研究人員們很難想到一種邏輯類型的規則去約束模型,他們也不知道模型到底知道什麼,不知道什麼。
在人類用戶的使用當中,不怕模型說不懂,就怕模型它不懂裝懂。
所謂【知之為知之,不知為不知,是知也!】
如果用戶詢問了一個非常刁鑽的問題,模型不知道,它老老實實地說了,反而會給人一種,【有點分寸,有點東西】的感覺。
可若是一通瞎說,驢唇不對馬嘴,那就顯得異常愚蠢了。
rlhf最初的目的是讓模型儘可能生成符合人類預期的回答,但卻意外地讓模型有分寸了很多。
對自己懂的問題更自信,對自己不懂的問題也大概有了數。
“經過【指令微調】,【代碼訓練】和【rlhf】三部曲之後,我這款350億參數的chatgpt差不多能夠做到原版1750億參數的chatgpt大約9成的水平了。”
由於孟繁岐熟知gpt4和同期其他大模型的優勢地方,350億參數大概是夠用的。
chatgpt本身的進化過程,還是走了彎路踩了坑的。
但chatgpt雖然是現象級的產品,卻也存在著自己的問題,它並不是完美的。
等到孟繁岐今年完成初版之後,他就不得不麵對這類的難題。
比如模型奇奇怪怪的信念。
chatgpt可能會非常堅信某件事,即便它顯然是錯誤的。
甚至,當你舉出反例的時候,它會讚同你的反例,但還是堅信這件事。
這件事情非常的微妙。
比如它會說,81是一個質數。這顯然是錯誤的,你對它說,九九八十一,它會大方地承認的確如此。
但與此同時,它仍舊會堅持,81是一個質數。
這就是一個非常讓人惱火的場景,一方麵,它能夠非常清晰地說出質數的定義,甚至比人類更加嚴謹客觀。
可同時,它卻沒有辦法遵從這種嚴格的定義,自己發覺自己做了一個非常錯誤的判斷。
當然了,這種信念的程度在不同的問題上會有程度的差異,如果用戶執意要挑逗試探模型的話,就會發現它有時候會堅持,有時候你說什麼他都會懷疑自己錯了。
這種通用的大模型,暫時沒法進行特彆嚴格的推理證明。
舉一個更加簡單的例子,它甚至會做錯簡單的數學運算。
“不過好在算術這方麵的問題101novel.com23年已經有解決的思路了。”gpt4的更新思路是插件,gpt不擅長做算術,會把簡單的東西算錯,既然如此,那就引入插件,讓專門的程序去負責專業領域的任務。
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。