原本發布t方法的論文名為《attentionisallyouneed》,意思是注意力機製就已經完全足夠滿足你的所有那些亂七八糟的技術需求了。
這項工作不僅引發了注意力技術的狂潮,順帶還引發了一波起名的狂潮。一時間,滿大街都是xxxisallyouneed樣式的名字。
這篇論文的一大意義是徹底拋棄了傳統的循環網絡和卷積網絡結構,推陳出新,而是僅僅隻使用注意力機製來處理機器翻譯問題,並且取得了非常好的效果。
此前,人們一般都認為,注意力機製隻能作為一種輔助道具,協助傳統的網絡來學習特征。
此後,這種全新的t方法迅速成為了語言類研究的重點方向,並且衍生出了bert和gpt兩個經典的路線,後者更是進化出了chatgpt這個家喻戶曉的新穎技術。
“注意力機製這個概念其實已經有了很多年了,差不多跟我的年齡一樣大。”九幾年的時候,注意力概念就已經在計算機視覺領域產生。
“它的概念也非常好理解,就像是直播中捕捉視覺的眼動儀,可以在直播畫麵上顯示主播眼睛正在觀察的地方。注意力機製的目的,就是為了讓深度神經網絡可以起到類似的效果,迫使神經網絡去關注圖片中的重要部分。”
比如孟繁岐最開始參加的千分類圖像競賽,人工智能模型或許可以正確地識彆了這張圖片的內容,但是真正讓它做出這個判斷的原因,卻很可能大大出乎你的意料。
它識彆出圖像中的內容是貓,卻非常有可能並不是因為它的【注意力】在關注圖像中的貓,神經網絡也許壓根就沒有在看圖像中的貓這個生物,它在看彆的。
或許是因為圖像中有貓糧,或者圖片的角落有【貓】相關的水印,又或者它可能是發現周邊都是草地的圖片內容往往是貓,因而一看到綠色的草地,就會做出類似的判斷。
當然,更有可能的是出於某種人類無法理解和解釋的原因。
雖然看的地方不對,結果卻是正確的,這種現象很容易被研究者們忽略,是非常危險的。
這種缺陷可以通過大量的數據和各種其他技術手段去彌補。如果沒有做好這些事情,模型在訓練測試的時候往往會表現得非常出色,可等到實際投入使用的時候,就很可能出大問題。
“隔壁有同事在嘗試把你寫的注意力算子應用在高分辨率的圖片上,以求降低計算成本。”
伊利亞分享了一下穀歌內部相關的情況“我這邊也在考慮,在循環網絡或者長短期記憶網絡上結合注意力,去處理翻譯任務。”
注意力機製加上高清圖片是比較合理的,通過注意力的篩查,可以剔除圖片中不重要的部分,從而大大減少計算量。
孟繁岐微微點了點頭,心中想著“圖片中的像素其實是非常冗餘的,比如人類就可以輕鬆通過很局部的內容推測出物體的全貌,根據愷明後來的研究,甚至隻需要原本百分之十幾二十的像素,就可以完成圖像的重構。”
“借助注意力來篩掉一部分像素,的確可以極大地減少計算量。使用這種辦法,就可以在原本的速度下采用更高分辨率的圖像,對關鍵的部分會處理得更加清楚,也就更加準確。”
孟繁岐認同這種做法,不過那是在圖像任務當中了,在語言問題當中是大不一樣的。人類的語言信息含量是非常高,密度也很大,即便隻少一兩成信息,甚是一兩個字的差彆,都很有可能會徹底改變句子的含義。
比如【我很喜歡】和【我不喜歡】,一字之差含義完全就不對了。因而類似的做法在語言上是不大行得通的。
不過可以像伊利亞一樣,換一個做法去使用注意力機製。
“注意力機製如果應用在語言和文本當中,其實計算的就是一個【相關程度】,一個句子當中每一個詞與其餘詞的相互關係和相關的情況。”
孟繁岐也沒想到伊利亞的思路這麼靈活,自己年初剛剛在搜索引擎中稍微利用了一下類似的概念,也沒有寫作論文,但伊利亞就很快捕捉到了這種技術在翻譯類型任務上的可能性。
“天才人物對技術的嗅覺果然不得了啊”孟繁岐有些感慨。
注意力機製畢竟二十年來都是圖像領域的概念,它使用到語言文本裡的形式是有很大變化的,這裡麵聽起來很像很容易,但實際上的差距並不小,不是那麼容易就能想明白的。
更彆提用代碼去實現了。
“如果使用注意力機製的話,為什麼還一定非要使用舊的循環網絡和長短期記憶不可呢?”
孟繁岐指出了這個思維慣性不合理的地方。
“傳統的循環神經網絡建構語言的時間序列信息,前麵的詞都要依次傳遞到後麵的詞上麵,這種信息的反複堆積有些浪費,並且全都堆在一起,直覺上不好區分。”
這章沒有結束,請點擊下一頁!
“你是說文字的長期依賴問題?”伊利亞微微皺眉,捕捉到了重點“不過長期依賴問題,已經相當程度上被循環網絡的進化版本,長短期記憶方法又或者是各種門控製給解決了。”
“說是解決了,但實際上是減輕了,終究還是治標不治本,隻是把症狀壓了下去。”
“那怎麼辦?難道乾脆就不要了?”伊利亞沒想那麼多,隨口問道。
問完卻發現,孟繁岐正在似笑非笑地看著他。
“你是認真的?”伊利亞此前是被思維的慣性局限住了,根本沒有想到注意力機製這樣一個配菜,能乾脆成為主餐,取代原本常用的網絡結構。
現在孟繁岐已經暗示了他的想法,伊利亞自然也就開始認真地考慮這種操作的可行性。
“原本最常見的循環網絡和卷積網絡互有利弊,如果長度為n,前向的複雜度是on級彆,卷積是o1級彆。但是卷積的每層複雜度要再根據卷積核的大小增加開銷。”
“倘若用注意力機製去做,前向的複雜度是o1,每層的複雜度則從ond2變為on2d。關鍵是,它可以並行了!”
分析複雜度分析到一半,伊利亞眼睛一亮,發現了重點。複雜度隻是小事情,能夠輕鬆並行才是最關鍵的地方。
傳統的長短期和循環網絡,可以處理時間序列信息,但總是需要根據之前的信息來推測當前的信息,依賴前置位的信息,因而無法並行。
簡單點說,就是能並行的模型學不到長距離語言之間的聯係,能學到的又沒法並行。無法並行,用現在的設備自然就很難把語言模型做大。
“可目前最強力的模型都是帶門控製,編碼器加解碼器的循環網絡和卷積網絡難道我們真的一點舊有的技術都不使用嗎?”
旁邊有旁聽的同事越聽越覺得不靠譜了,這一步子跨得也有點太大了,哢,容易扯著蛋。
“它可以無視語言中,兩個詞之間的距離為它們單獨建立相關性關係,單獨這一點,就足以成為我們嘗試的理由了。你們翻譯任務當中,長句不也是相當令人頭疼的問題嗎?”
句子一長,就容易出岔子,加上目前的模型還喜歡持續累加各個詞的信息。
機器看到中間,早就忘記前麵是什麼內容了。
“我是誰?我在哪?我在乾嗎?”
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。