“這裡你為什麼使用了這個新的層歸一化,而不是去年你發布的批歸一化呢?”
“我覺得語言這種數據比較特殊一些,圖片我們經常統一整理成相同的分辨率,但是文本這種東西的話,有長有短,我知道一般大家會把後麵加0以確保樣本長度相同,方便處理。”
“但是這樣做的話呢,在批次的這個維度上,歸一化很有可能會產生大的波動,尤其是在小批次上。比如一長一短兩個文本作為一個批次,你的均值和方差的計算就會非常不穩定。”
孟繁岐的解釋通俗易懂,在場的同事基本上都瞬間理解到了重點,畢竟代碼就在這裡了。
“所以這個層歸一化,其實隻是針對樣本自己的向量特征做了歸一化,不管樣本長短,大家的特征長度都是固定的。”
“理解了,理解了。”
“妙啊沒想到這麼多東西在細節裡麵。”
有不少人隻顧著看那些重大變動的部分,壓根就沒注意到這裡做了什麼不同的操作。
“也不隻是訓練,即便訓練的時候沒有遭遇問題,但在推理的時候,有人不講武德,突然拿出一個超長的文本。這樣一來,你的模型沒有在長文本上算過均值和方差,突然麵對比較突兀的輸入,也很有可能出現很大的問題。”
小主,這個章節後麵還有哦,請點擊下一頁繼續後麵更精彩!
“層歸一化就不會,因為均值和方差都是在樣本自己裡麵進行計算。”
阿裡克斯則注意到了注意力機製的寫法似乎和平常有些不大一樣“自注意力機製我們大概都能理解,這裡為什麼是多頭自注意力機製呢?”
“我們希望算法模型基於注意力機製這種東西關注比較重要的內容,但同時,在模型規模較大的情況,模型如果整體關注的東西太過單一也不是什麼好事。”
“擁有一定長度的文本,對比圖像來說可能比較重點的內容有很多,將注意力拆分為多組,不僅能夠讓模型關注到輸入的不同部分,同時也更方便去做並行加速。”
穀歌大腦十位左右的研究員聚在這裡,越討論越覺得這方法不一般。
不僅宏觀層麵上多了方便並行、結構簡潔、長距離關聯能力強等特點,模型內部孟繁岐的各種實現那都是深思熟慮,非常直擊要害的。
給人的感覺,就是千錘百煉打磨過很久。
“好家夥,你不是做圖像類任務的嗎?怎麼在序列類型的數據上也這麼厲害?”
在場的諸人都了解孟繁岐這一路的學術成果,千分類、檢測、生成、人臉甚至前幾周剛做的醫療方麵,乃至於阿爾法圍棋也算是另一種性質的圖像。
而現在,這可是直接跨行做到語音和語言這方麵來了。
關鍵是你來就來吧,怎麼一來就掀大家桌子?
穀歌大腦這邊的人倒還好,至少自己也積極參與了進來。
一群人聚在一起,研究的聲勢是浩浩蕩蕩,很快隔壁專門的語音組就聽到了風聲。
“臥槽?這小子怎麼跑我們的領域來了?真是饒了我們吧”
“都說圖像,語言和推薦是三大主流方向,他怎麼就盯上我們語音這個小領域了呢?我們這小廟可容不下你這尊大佛啊!”
“彆提了,推薦廣告組被這小子鬨了一出,現在做出什麼東西來領導都覺得不足為奇。出了業績部門副總是舒服了,可底下小兵幾年之內怕是升職加薪都沒戲嘍”
偶然走漏的風聲畢竟消息內容有點偏差,他們此刻還不知道,孟繁岐哪裡是要去語音領域搶一小口飯吃。
他是要把整個序列類型的解答範式都給它直接統一了!
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。