相比效果顯著,非常出色的老虎算法,移動端優化排序算法的效果要稍差一些。
因而孟繁岐並沒有急著推動上線測試,而是等待結合ai語言解釋模型的那一個更新準備一起推動。
目前針對語言問題所采用的通常是循環神經網絡rnn和長短期記憶辦法lst,這兩個工作都是上個世紀末的老辦法了。
這兩種方法簡明好用,因而一直興盛到101novel.com17年左右。
直到transforpt的t方法出現。
通常來說,大家都認為transforr方法之所以能夠迅速取代rnn和lst,主要是因為它更方便並行進行。
在多個設備上並行方便最核心的意義便是讓規模龐大的版本成為可能,這也為後來chatgpt這樣的究極巨無霸模型奠定了基礎。
“其實老版的rnn也有辦法可以把並行做得很好,領域內對這件事有很大的誤解。”孟繁岐皺著眉頭思索道。
原本時間線,transforr出來之後,所有人都放下了手頭老方法的研究,擁抱了t方法。
可18年實際上有人專門做了rnn的高度並行,隻可惜已經太遲了。
如果這個發現可以早一年的時間,可能rnn會長期作為t辦法的競爭對手,我們也有可能看到chatrnn的出現。
“早期的t方法需要很多數據,各種參數比較難調整,需要的計算能力也很龐大。”孟繁岐即便根據後來成熟的許多方法做了一個改進的版本,t方法在早期仍舊比較麻煩。
“好在穀歌的數據和算力都不缺,而我也比較熟悉各種經典的參數設置。”孟繁岐先寫了一個雛形版本的t方法,進行了一下測試。
“不過,受限於現在顯卡的顯存,模型沒有辦法做得很大,除非我專門再去開發deepspeed這樣的高級並行方式。”
在多張卡上訓練模型,可能是為了追求速度,也可能是因為一張卡上放不下了。
其中,數據並行是最簡單的,也就是不同的卡都在做同樣的事情,每張卡上都會存放一個模型。
隻不過輸入的數據不一樣,不同的卡做完運算之後,再一起整合更新。
就像是所有人都拿了同樣的刀切不同的菜,最後把切好的食材堆在一起。
可有的時候,一張卡上根本就放不下模型,這樣的情況就比較麻煩了。因為一個人根本拿不動這把刀了,需要多人協作。
可以把每一層拆分到不同的卡上,也可以把不同層分配到不同的卡上,如此一來,其實是用多卡實現了類似單卡訓練的效果。
顯然,前者會比後者容易非常多,前者隻需要在不同卡上複製這些模型,分彆讀取數據做運算就好。
而後者則需要根據不同的情況和設置拆分合並,一個不小心就會搞錯。
看了下穀歌大腦的服務器,裡麵有好幾批101novel.com13款的x泰坦,這東西著實價值不菲。
考慮到當時的其他產品,6g的顯存還是鶴立雞群的。
比起孟繁岐自己重金購置的4g旗艦款,多出的2g顯存,足夠做很多其他的事情了。
用速度換顯存,孟繁岐又做了許多參數和信息在cpu和gpu上反複轉移的操作。
因為在正式入職之前,穀歌大腦分配給他的顯卡就已經有16張泰坦,這部分卡撥給孟繁岐獨享,隨時都可以使用。
除此之外,還有32張在不同節點上的gpu可以申請占用。
“這時候的穀歌顯卡還沒有那麼多,這個配置已經相當大方了。”