從模式上說,gpt顯然要強很多酷很多。
因為bert的模式需要對特定的任務做大量的調整工作,仍舊無法擺脫現有人工智能技術的困境。
它更像是一個特定任務上的工具,而非是一個智能。
不過直到chatgpt出現之前,幾乎沒有多少人相信過gpt的模式真的能夠更強。
因為一直以來,gpt的性能效果都要比bert方法差了不少。
“即便我將兩個方法都做出來之後選擇支持gpt,恐怕也不會有多少人跟隨我的腳步吧他們大概隻會覺得,我為了完成當年視頻中的宣傳效果,已經開始不尊重事實,無法正確看待自己的技術了。”
開源了t方法之後,孟繁岐所有的精力就完全撲在了一件事情上,那就是確立t方法後續路線的兩種範式,bert和gpt上。
不過這一次,他倒沒有著急著手寫代碼和論文,而是花了很多時間與辛頓師徒以及其他穀歌大腦的同事討論其中的模式和原理。
“首先,你的這兩個路線,肯定都是基於預訓練大語言模型的,隻是針對後續具體任務的方式不大一樣。”
辛頓還是那麼擅長把複雜的問題和區彆迅速地歸納總結。
所謂的預訓練,並不是什麼難懂的概念。
所有的模型都是由大量的參數組成的,最初的模型,所有的參數都是依照一些簡易的模式隨機生成的,這個模型不具備什麼能力。
利用這樣白紙一張的模型進行人工智能任務的學習,叫做從頭訓練。
載入已經學到了知識的參數模型,而不是隨機產生的參數,就叫做使用【預訓練模型】。
比如孟繁岐最開始參賽千分類任務,就是從頭訓練。
在語言領域當中,模型通常很大,所需要的文本數據也非常之多。
不是每一個都像孟繁岐這樣,擁有成百上千張的泰坦z來做實驗的。
倘若現在有一個人,想使用最新的t方法,在自己的任務上使用,比如他想要一個可以辨彆哪些語句說了臟話的t方法模型。
那麼他就有兩個選擇,一是隨機生成參數,從頭訓練一個t方法模型。
二,他可以直接載入孟繁岐開源出來的模型參數,然後在自己的數據和任務上做一些細微的調整,俗稱基於【預訓練模型】的【微調】。
很顯然,後者的效果要比前者要好太多太多。
因為前者是從一個什麼都不會什麼都不知道的模型,從零開始,t方法可不是什麼容易訓練的模型。
而後者,則是已經在非常龐大的語言數據上學過語言的一般性規律和知識的聰慧模型。
站在巨人的肩膀上,模型學起新東西來,事半功倍。使用少很多的成本就能夠取得成效。
“沒錯,在預訓練階段,我們可以使用大量沒有人工打過標簽的文本數據,避免了對大量標注數據的依賴。預訓練的模型能夠抽取出更豐富的語義信息,提高模型在各種自然語言處理任務中的性能。”
這是不論在圖像領域、文本領域還是語音領域都已經成為基礎的模式。孟繁岐覺得這點沒有什麼值得討論的,毫無爭議。
“其中的區彆就是,究竟是使用特定數據去【微調】模型,還是使用【指令】去提示模型。”孟繁岐如此說道,這兩點,就是bert和gpt技術最大的區彆所在了。
“通常來說,我們都會覺得應該做【微調】。預訓練的模型學到的能力比較籠統,如果不專門針對某個任務去做【微調】的話,效果通常都會不大好。”伊利亞和阿裡克斯等人都覺得這是常識。
不過如此做的話,顯然就無法達到孟繁岐宣傳的那種模式和效果了。
舉一個很簡單的例子,bert和gpt都在大量的文本上做了預訓練,現在它們有任務了,任務就是判定社交平台上的用戶們發言的時候有沒有在開車。
那麼bert的模式是【微調】,我會收集一大堆開車搞顏色的文本,然後把它們一個個標注清楚,喂給bert去訓練。
“你小子看清楚了,這樣的人就是在開車。”
bert大量觀看開車文本,然後微微調整自己的參數,進行了二次學習,針對性學習。
搖身一變,它就變成了文字交警,專門抓捕社交平台上那些在開車的文本和用戶。
但是同時,由於做了針對性的訓練,它在其他方麵的能力會有所損失,受到一定的影響。