因為對ai模型來說缺少了多元化的評判。
從出發點到終點,有一萬條路,ai模型的訓練就是把這一萬條路都走一遍,然後選出最合適的那條路,這才是ai的價值。
就像生物製藥,有一萬種選擇,ai幫忙給出最好的那幾個選擇,就會大大地縮減研發經費、提高研發成功率。
要是一開始就隻提供一條路,那還訓練個屁啊,不給ai選擇、評判、思考和分析的機會,就隻告訴他一個標準答案,ai就會毫無意義。
德文、法文、日文、韓文的數據量太少,中文的數據量很大,可是因為環境的限製有價值的數據也很少。
所以,想訓練出世界級的ai模型,就隻能用英文語料來訓練。
這就需要一些弱勢語言的ai模型,要有語言轉換能力,去轉換成英文。
就像使用文心一言,讓他畫一個起重機的圖片。
結果畫的是鶴。
這就很讓人費解。
其實很簡單,起重機的英文是e,而e在英文裡主要是指鶴。所以ai模型就畫出了鶴的圖片。
又比如“可樂雞翅”這種,放在中文語境裡,其實很好理解,就是一道菜。可是,這裡麵有一道翻譯的手續,把“可樂雞翅”翻譯成英文,在翻譯過程中就造成了信息離散,導致畫出來的可樂和雞翅。
chatgpt一樣會遇到這樣的困境。
用英文向chatgpt提問,回答的速度會非常快,而且準確度極高;如果用中文、日文、韓文、法文、德文等其他語言來提問,反應速度就會很慢,給出的答案也會錯誤百出。
因為其他語言的數據量太小了,訓練出的模型就不夠智能。
隻有英文版最智能。
文心一言想要表達得智能一些,就不能對接中文的語料,要去對接英文的訓練數據才行,然後背後再增加一套翻譯算法和內容審查算法。
所以,想做出一款偉大的ai產品,除了在人工智能領域的頂尖算法之外,還有很重要的一個因素,就是訓練ai模型的數據。
這些數據裡,有些是開源的公共數據,全世界都可以用。有一些是私有數據,隻有自己可以用。
像微軟、穀歌、facebook這種矽穀的巨頭公司,除了可以使用龐大的公有數據外,還有龐大的有價值的英文私有數據可以使用,他們做出來的ai模型就會比隻根據公有數據訓練的ai模型要更加強大。
所以,周不器對內容很重要,尤其是海外的英文內容。
這些都是私有數據,都有可能成為紫微星在未來世界競爭中最寶貴的資產。
如果拉裡·佩奇說的這款kno真的是對標維基百科的產品,那就太有意義了。維基百科是公有數據,kno就是私有數據。
“維基百科更像是一個詞典,內容都比較基礎,是偏大眾的產品。kno是由一部分有能力的權威用戶來共同協作,用來解釋一件事物的是什麼、怎麼做、起因經過結果及其周邊事物,並且注明作者的真實資料,從而讓內容更加地精準、權威。”
拉裡·佩奇做了一個簡單的比較。
周不器一下就聽明白了kno這款產品失敗的原因。
信息的準確性、真實性,其實一點都不重要,大眾根本不在乎真相,隻在乎表象。這就會形成一種“越大眾,越普及”、“越權威,越小眾”的現象。
穀歌想把kno打造成一款有權威級的內容產品,立意很高、誌向很大,但想要收獲足夠多的用戶,那還是難了點。
就像紫微星在國內的兩款產品,微知和今日頭條。
微知上的內容比今日頭條優秀多了。
可是,微知的日流量隻有6500多萬,今日頭條卻高達2.8億。就是因為微知的內容太好了,頭條的內容很能嘩眾取寵博大眾的眼球。
兩人又經過了簡單的交流,周不器對kno這款產品興趣越來越濃,打算回頭先去研究一下。如果合適,不妨就買過來,加以改造。
會談的最後,兩人談到了長生不老的話題。
拉裡·佩奇對此很感興趣,“等敲定了推特的案子,接下來一個方向就是要讓董事會批準,去嘗試在這個領域做一下。”
周不器似笑非笑,“要投資多少錢?”
拉裡·佩奇口氣很大,“20億美元吧,資金太少也沒必要讓董事會批準。我打算成立一家專門從事生物研究領域的子公司,用於抗衰老的相關研究,目標是實現人類長壽甚至永生。”
周不器問:“跟it相結合?”
拉裡·佩奇坦言道:“當然,要跟人工智能關聯起來。現在人類每研究出一款蛋白質的功效,可能都要由幾十位醫學專家花上千萬美元才能研究出來。如果ai發展起來了,完全可以一次性地把全人類所有已知蛋白質的功效都給破譯出來。”
周不器豎起一根大拇指,“有追求。”
“你也會參與吧?ai在改變世界。”
“當然。”