第323章 ChatGPT核心技術（合）_重生之AI教父

在前世openai得到gpt3之後，為了發展出chatgpt級彆的智能，他們曾經做過兩種不同路線的嘗試。

openai將一批模型命名為達芬奇，分為代碼版達芬奇和文本版達芬奇兩種，顧名思義，一種用於代碼，一種用於文本語言。

這兩兄弟可以算作是第一版的gpt35，也就是chatgpt的原始版。

對比原本有點笨笨的gpt3，兩兄弟已經開始展現出不少關鍵能力。

比如合理的響應人類的指令。

他們針對人類的輸入內容，回應會顯得非常合理，給人感覺像是在進行對話和思索。而此前的gpt3，會經常複讀相關，但是根本沒用也不是回答的句子。

比如可以對從未見過的任務和知識內容進行應對，這一點是至關重要的。

如果模型隻能對訓練集內有的文本進行理解和回答，那麼上線以後是完全沒法用的。

廣大民眾的想象力是無限的，分分鐘就會發現智能的漏洞所在，進而對這款智能失去興趣，這也是為什麼gpt3在人工智能領域外幾乎沒有什麼水花。

最重要的一點，是模型具備了【思維鏈】，能夠對比較長的句子和事件的因果關係進行相當複雜的推理。

這一點也是gpt3幾乎不具備的。

思維鏈的能力至關重要，它不僅使得模型能夠更加聰明的理解人類用戶的輸入，更加關鍵的地方在於強化了多輪對話的前後文理解能力。

它使得語言模型仿佛具有了相當的記憶力，用戶每次輸入內容和進行對話的時候，幾乎不需要過多的提及之前的內容，模型就仍舊能夠串起前文，理解用戶的意圖。

這些新的能力，是使得gpt35完全蛻變，成為全世界目光焦點的關鍵所在。

而與gpt3相比，模型的參數和訓練的數據變化其實很小。

所以孟繁岐才會認為，數據和模型規模固然重要，但還不夠產出chatgpt這樣聰慧的智能。

在此基礎之上，還需要另做文章，並且工程量不小。

這些操作和技巧，就是openai最成功產品，chatgpt的核心科技。

“首先要做的兩件事是【指令微調】和【代碼訓練】。”孟繁岐如今手下已經有了好幾十人，既然付工資，該讓他們做的事情當然不用客氣。

指令微調到底是否改變了模型的性能，這個問題其實並不好說。

不過前世有很多研究證明，指令微調的確可以使得模型的輸出更加符合人類的風格，符合人類的偏好。

或許，微調前的模型其實已經理解了內容，掌握了對應知識，但它表達的方式和風格並不是人類的風格，又或者說，它不知道應該如何表達。

這也就導致了人類對它們的回應評價不高。

“大家不要小看指令微調，如果說隨機參數生成的大模型就像是人類嬰兒，經過首輪訓練的gpt就像是剛剛完成九年義務教育的中學生。他們有基礎的知識和寫作能力，但如果想讓他們在特定任務上獨當一麵，還需要進行專門的實習鍛煉。”

“指令微調就像是一種引導，讓大模型在少量的訓練調整中，大概理解什麼樣的問題需要檢索什麼樣的知識，如何回答才是更好的方式。”

“這種模式，我們之前在做ai醫生的時候，已經有過非常詳儘的流程和模版了，不熟悉的同事可以先去學習一下。”孟繁岐知曉這件事的重要性，因而從兩年前開始收集數據的時候，早就規定了收集數據需要的格式。

一步到位，為後麵省了不少事情。

上一次ai醫生，之所以能用數億的參數量做到那麼好的效果，指令微調策略是貢獻很大的。

他使得ai模型能夠顯得非常自信專業，很像是具備特定領域專業知識的老醫生。

並且時刻知道自己的身份，會提醒患者去醫院確認情況，不會過於自信。

“這一次的主要挑戰在於我們要打造一個通用的語言大模型智能，因此多個方麵和領域都需要微調，任務種類可能達到數千的級彆。”

“我留給大家的時間並不多，可能隻允許你們失敗一次。有任何問題及時跟我聯絡協調，不要硬著頭皮耗，到最後耽誤了整體的進度，獎金扣光！”

孟繁岐平時對於薪水發放很好說話，但關鍵時刻也不會容許有人掉鏈子。

想做chatgpt這樣的通用模型，這一整套流程需要大家齊心協力完成，單隻靠幾個已經熟悉了這個過程的小團體就顯得不夠了。

【指令微調】需要用量來堆，前世大家的總結是，【對沒有見過的指令也能做出正確反饋】這種奇特的智能能力，是在模型訓練的指令數量超過一定程度之後，自動出現的。

很多家機構和模型，都在自己的訓練過程中，發現了這樣的現象。

說難聽點就是，大力出奇跡了，量變產生了質變，並沒有誰提前預料到了這個結果。

本小章還未完，請點擊下一頁後麵精彩內容！

而另一個關鍵因素【代碼訓練】，則是大模型產生了【思維鏈】的一大主要原因。

gpt3的訓練階段，數據中沒有包含任何代碼，它基本不具備【思維鏈】能力。

穀歌的pal，含有大約百分之5左右的代碼數據，最終得出的模型具備【思維鏈】的能力。

達芬奇係列分出兩支，其中一個對代碼做了特訓之後，發覺這一係列和後續變體，都獲得了【思維鏈推理】的能力。

101novel.com22年，有人就對市麵上的大模型都進行了廣泛的評估，發現所有針對代碼進行過學習的語言模型，都具備很強的語言推理能力。

這一發現，同樣暫時沒有得到比較合理的解釋。

前世大模型火了之後，孟繁岐原本的項目直接被砍，因而讀這類的技術和論文很多。

但讀來讀去，並沒有讀到任何確鑿的證據和理論可以證明又或者是解釋，代碼就是大模型能夠形成思維鏈又或者是進行複雜推理的原因。

大家也隻是發現了這樣的觀察結果，這兩者之間存在相關性，不過未必就是因果關係。

“目前我還沒有看到誰將各種代碼也加入到模型訓練當中”孟繁岐極大地加速了ai技術的發展，等到他推出350億參數的chatgpt之後，有這個能力入場玩一玩的公司就不剩下多少了。

對大多數人來說，光是把這個大小的模型塞進自己的服務器裡，運行在顯卡上，就已經是要了老命的事情了。

如此大的模型規模，大家連訓練比較常用的數據都難以負擔，恐怕很難能夠想到要把將代碼也加入到文本當中來。

這個小秘密，可能要等孟繁岐推出專門的代碼大模型之後，才會有人注意到。

“所以到底為什麼讓模型學習代碼會有助於它的邏輯推理能力，以至於它在處理人類語言的時候也會有這麼大的提升呢？”孟繁岐並不知道答案，這件事情在101novel.com23年也是未解之謎。

“按理來說，代碼是一種中間產物，屬於人類語言和機器語言的中間地帶。它跟人類語言的差距是非常大的，幾乎沒有什麼相似之處。”closeai內部曾經對這個問題進行過討論，但沒有什麼特彆有意義的結果。

第323章 ChatGPT核心技術（合）（1 / 2）