不管是語言轉文本,還是文本轉語言,都隻是t方法在某一個領域的應用罷了。
不在語音上做,也可以在翻譯、問答等諸多領域上去做,做什麼任務隻是載體。
真正重要的事情,是transforr這個方法本身,以及這篇論文的寫作和理論推導。
提出殘差網絡再震驚世界,這個模型也仍舊歸類在三大類模型的卷積神經網絡裡麵,並沒有能夠超脫出來。
可t方法,則是直接成為了第四類模型,與循環網絡,卷積網絡和多層感知機並列,這是開宗立派的一個方法。
該文當時也被評為三年內深度學習領域最重要的一篇文章。
因而論文的寫作和證明推理,要比實際的應用項目關鍵太多。
“原本這篇文章在寫作的時候,是針對了機器翻譯這樣一個小的任務來寫的,隻是在結尾的時候提到了這種方式可以類似地擴展到圖像,視頻和語音領域。這次我的格局得打開,在寫作的基調和宗旨當中,就要融入和各領域有關的思索和技巧。”
機器翻譯說到底隻有少數幾個公司在關注,隻針對它寫作會一定程度上影響到文章的影響力。
在這次方法的討論和論文的寫作上,穀歌大腦可以說是傾巢出動了,孟繁岐首次積極地聯係了多名同事參與進來,這讓大家都覺得相當新奇。
不僅有伊利亞和阿裡克斯等人,穀歌大腦的其他同事比如傑卡布,尼克、盧卡斯等人也被拉了進來。
“一個隻基於自注意力的新網絡結構?”穀歌大腦的團隊當中哪有混子,隻是稍微一聽,就大概明白事情已經大條了。
紛紛非常興奮地加入了進來。
此技術相當重要,因而代碼框架,各種算子孟繁岐從去年底處理推薦廣告算法的時候,就已經在陸續實現了。
斷斷續續到現在,接近半年的時間。
倒不是因為這個方法特彆複雜難懂,而是這份代碼需要在成百上千張顯卡上高度並行運算。
在具體的實現上,每一步的優化都非常關鍵,要紮紮實實地寫好。
作為後來chatgpt的基石,孟繁岐自然從最初就十分認真地對待。
畢竟若是速度慢了個五成,千張顯卡的時間成本可就虧大發了。
“我看你這個t方法,也仍舊是編碼器解碼器的組合結構,和傳統的辦法很像啊?”
圍觀的同事有的剛來看到代碼,還沒有發現這個結構獨特的地方。
通常來說,編碼器將長度為n的輸入編碼成為長度為n的向量表示,而解碼器則將該向量表示重新解碼為長度為的輸出句子,這裡n和的長度可以不同也可以相同。
在編碼的過程當中,整個句子是一次性給到的,全文都可以看到。但這個解碼過程則是逐詞進行生成,已經被生成的詞也會作為輸入,因此又被叫做自回歸。
傳統的方法當中,廣泛采用了類似的策略,因此大家看到這個編碼解碼的結構並不意外。
“還是熟悉的風格,對多個層沒有做專門的特殊設計,而是采用了完全相同的結構。”
“大道至簡嘛,真正最強的方法,都不搞那些花裡胡哨的。”
從殘差網絡開始,孟繁岐發表的重要論文就比較少專門對具體的局部進行專門的設計,而是有一種重劍無鋒,大巧不工的力量感。
從思想和設計上直接獲勝,不靠微調局部結構反複調整參數。
雖然同樣是編碼器解碼器的結構,但t方法還是非常不同的,它的編碼器逐漸衍生出了bert方法,而解碼器則拓展成為了gpt結構,不過那是後話了。
開始閱讀孟繁岐代碼的同事們,很快就變成了問題達人,看到不大清楚的地方就馬上發問。