有一位被幾人簇擁著,很有書卷氣質的男子舉起了手,他動作優雅,但說出來的話語卻充滿了尖酸刻薄的味道。
“要不然,還是請李曉軍教授先說說吧,畢竟李教授曾經宣稱他的擬合準確率達到了百分之一百,後來不知道為什麼,卻又突然撤回了這一聲明。”
台上的人大多都哄笑了起來,台下的人卻隻安靜地看戲。
在這個會場中,李曉軍是第二個知道王棟這副麵孔後真實身份的人。
因為前不久,王棟剛剛頂著這副麵孔跟他私下裡見過麵。
而讓台上的李曉軍漲紅了臉龐的這番來自同行的嘲諷,真正應該背鍋的恰恰是王棟本人。
事情是這樣的。
經過漫長而艱辛的努力,王棟終於在破解這台神秘機器的軟件架構方麵取得了重大突破。
他找到了一個非常關鍵的模塊。
那是一個底層模塊。
機器要處理的所有數據,都需要先經過這個底層模塊進行預處理,然後才會被送往上層各個模塊做進一步分析。
他至今還沒有發現例外的情況,而且這個模塊的處理結果非常有意思。
它能把無論什麼格式的數據都映射為一些固定長度的向量。
這些向量的維度是固定的,但向量的個數並不固定。
比如輸入一段語音可能會輸出兩根向量,而輸入另一段語音就可能輸出三根向量。
王棟發現,無論是語音、圖像或其它有結構無結構數據,無論何時輸入,同一個輸入映射得到的輸出向量集合都是一模一樣的。
無論是向量的個數,還是向量的內容。
如果對輸入數據加一些微小的噪聲,隻要沒有到影響其內容的地步,它映射出來的輸出向量也不會發生改變。
反之,如果改變了部分屬性,比如同樣的語音內容但換了一個不同的說話人,或者同樣一隻狗的照片但換了一個拍攝地點,輸出向量的集合中,總有些向量是不變的,代表未改變的那部分內容,但也總有一些向量發生了改變。
在進行了大量的數據分析後,王棟終於確認,這不是一個簡單的數據預處理模塊,而是一個智能解譯模塊。
它能對任意形式的數據進行解譯,把數據中承載的所有信息都識彆理解出來,然後用向量的形式表示出來。
也就說,這些向量所構成的表示空間,就是機器所理解的世界。
通過這個智能解譯模塊所得到的,是在其理解的世界中的一種語義表示。
越相近的事物,在這個語義表示空間裡,距離總是越接近的。
比如同一個人的兩段內容相似的語音,輸出的每個向量要不然完全相同,要不然就非常相似。
王棟曾經嘗試過,基於這個模塊得到的語義表示,對計算機領域各種分類任務,利用地球上已有的機器學習算法,幾乎都能達到了百分之一百的識彆效果。
所以,這個底層模塊才是這台神秘機器的智能核心。
隻要破解了它,掌握了它,在人工智能方麵,人類就能達到與機器同等的技術水平。
王棟猜測,支撐這個智能解譯模塊的很可能就是一個通用的預訓練模型,或者類似的東西。
通過它就能夠實現從物理層級的世界到概念層級的世界的跨越。
這就是地球上人工智能學者一直夢寐以求的那種模型,一個通用的底座,實現對所有數據的智能解譯,進而就能夠支撐所有的下遊分析任務。
然而,當王棟詢問機器這個智能解譯模塊的工作原理時,卻什麼信息反饋也沒有得到。
王棟一籌莫展,機器不配合,這就是一個打不開的黑盒子。
唯一能采用的策略,也隻能是根據輸入和對應的輸出數據,想辦法擬合出這個解譯模型了。
他先是采集了幾萬億的成對數據用於擬合實驗。
隨後,他便不遺餘力,窮儘一切可能,開始了一段百折不撓的嘗試之旅。
即使有機器的幫助,這一破解過程也是極其艱難和緩慢的,王棟幾乎遍曆了所有的數學和計算機方法。
即使如此,當他把擬合準確率提升到67之後,這個指標說什麼也無法再提升了。
這個結果把王棟逼得吃不下睡不著,整個人近乎瘋魔。
後來,還是在於麗珍的勸說下,他把這個任務發布了出來,才得以恢複了正常的作息。
這是神國向大眾發布的第一個任務。
除了數據外,他做過的所有的嘗試及其結果也被一並發布了出來。
當然還有獎勵條款。
隻要擬合準確率大於67,每提升一次就會得到百萬讚幣。
每個月,無論擬合準確率是否高於67,隻要準確率相比上個月有所提升,且是本月最高,也會有十萬讚幣的獎勵。