“這小子不會又在憋下一個大招了吧??”
“我怎麼有種不祥的預感??”
“這情況好嚇人啊,我現在都不敢做研究了,生怕忙活大半年又被他直接掀翻了,全白乾!”
孟繁岐此時的形象,已經差不多成為了領域終結者。
論文一發,生死難料。
誰都不知道哪個領域會是下一個受害者。
吃瓜群眾們沒有猜錯,既然馬斯克有自己的小算盤,孟繁岐已經轉移重心在緊鑼密鼓地繼續t方法的後續技術道路了。
初版的t方法並沒有那麼成熟,取得發布會上的那些成績,需要大量的數據和計算資源才能做到,孟繁岐認為開源它並無大礙。
一般人根本玩不起這東西。
就在大家還在仔細琢磨論文,研究代碼的這段時間,就足夠孟繁岐準備好後續三大方向的框架了。
這章沒有結束,請點擊下一頁!
等這群人還忙於複現,調整參數,在訓練過程中持續踩坑階段的時候,孟繁岐後續的實驗都能做一半了。
等他們真的能夠有一些什麼不夠成熟的發現時,孟繁岐基於t方法的後續gpt、bert和t5三大路線的論文,說不好都已經整裝待發了。
“我就是要故意漏出一些破綻,給學界一些希望和曙光,然後在他們覺得自己行了的時候,狠狠地掏出更強的方法,給他們致命一擊!”
不得不說,他實在有點惡趣味。
但另一方麵,這也是為了孟繁岐私人的利益。
隻有開源放出t方法,讓更多的人提前采用它、認可它,英偉達才能夠更早地對這個方法有充分的信心,對t方法做硬件的專門適配,雙方的合作關係更加緊密。
此舉能夠大大加深他與英偉達之間的羈絆,自然是需要大力推動的。
“bert方法和gpt方法名字裡麵都有一個t,這個transforpt的全稱是預訓練生成式t方法。”
“這兩個名字雖然聽起來讓人覺得雲裡霧裡的,但可以用一種很好記的方式去理解。基礎的t方法與此前經典的循環網絡一樣使用了編碼器和解碼器組合的結構,bert專精於編碼器,而gpt專精於解碼器。”
t方法提出一段時間之後,學者們發現,這種全新的結構並不一定非要遵循原本的那種編碼器解碼器結合的模式,而是可以僅僅隻使用一種格式就取得很優秀的結果。
“其實自然語言處理的任務,核心是一個有關概率的遊戲。這些模型在大量的文本和數據上進行訓練之後,模型就會非常擅長做填空遊戲。它會根據上下文,在文字的空白處填寫答案。比如我今天股票【空格】了。ai就會發現,賺和賠這兩個字擁有極高的出現概率,因而會根據其他前後文,選擇一個概率更高的詞生成在空格位置。”
雖然比較不可思議,不符合人類對語言的理解,但事實的確是如此。
即便是gpt4那樣檔次的語言模型,機器也沒有任何一點點理解了這個世界。
它隻是特彆擅長根據前後文,根據你的問題去生成最大概率讓你比較滿意的回答,這是根據海量文字數據得來的能力。
這點和我們猜謎語特彆像,隻是看過海量數據又精於計算的模型算得特彆準。
“在t方法發布的技術路線之上,bert和gpt是兩個最有人氣的語言模型,在原本的時間線上,穀歌和openai選擇了不同的路線。”
孟繁岐大概回憶了一下技術路線,這兩者的共同點是都使用了大量的文本數據做了預訓練,即讓模型預先學習海量文本中的知識。
兩者最大的區彆,是bert采用了針對不同任務類型做細微專門調整的方式。
而gpt則是通過更加未來的形式,隻需要用戶直接與其對話,指令,便可以去要求它做特定的任務。
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。