第798章圖靈測試
聽到這裡,原本神色平靜的大boss們,臉上終於露出了鄭重。
能坐在這裡的都是聰明人。
他們都能從徐良的話裡聽出大數據應用的真實性。
“不過,大數據和雲計算隻是基礎,真正帶來行業變革的是人工智能。
我相信很多人都聽過‘圖靈測試’。
讓一台機器和一個人坐在幕後,讓一個裁判同時與幕後的人和機器進行交流,如果這個裁判無法判斷自己交流的對象是人還是機器。
這就說明這台機器有了和人同等的智能。
這便是大名鼎鼎的‘圖靈測試’的全部內容。
計算機科學家們認為,如果計算機實現了五件事,就可以認為它擁有圖靈所說的那種智能。
第一,語音識彆。
第二,機器翻譯。
第三,文本的自動摘要或者寫作。
第四,戰勝人類的國際象棋冠軍。
第五,自動回答問題。
對於怎麼實現這五件事,學術界分為傳統人工智能的方法和現代其它的方法。
那麼傳統的人工智能方法是什麼呢?
簡單講,就是先了解人類是如何產生智能的,然後讓計算機按照人的思路去做。
這種方法又稱為‘鳥飛派’。
就像人類觀察鳥的飛行,發明了飛機。
觀察魚的遊行發明了潛艇一樣。
通過模擬進而發明。
但後來經過多年研究證明,這種方法非常不現實。
因為機器始終是機器,永遠不可能像人那樣思考。
科學家們不得不另辟蹊徑。
到了20世紀70年代,大家開始嘗試機器智能的另一條發展路徑。
即,用數據驅動和超級計算的方法,來實現人工智能。
這種方法又稱為機器學習或者知識發現,也就是我們之前說的現代的人工智能發展方式。
最早在這方麵做出成果的是1972年美國康奈爾大學的教授——弗雷德·賈裡尼克。
他不是人工智能專家,他是一位卓越的通信專家。
他認為人的大腦是一個信息源,從思考到找到合適的語句,再通過發音說出來,是一個編碼的過程。
經過媒介聲道、空氣等)傳播到聽眾的耳朵裡,是經過了一個長長的信道的信息傳播問題。
最後聽話人把它聽懂,是一個解碼的過程。
也就是說,他認為人工智能的語音識彆,是一個典型的通信問題。
可以用解決通信問題的方法來解決。
為此賈裡尼克用了兩個數學模型,即馬爾科夫模型,分彆描述信息源和信道。
找到了數學模型後,下一步就是用統計的方法‘訓練出’模型的參數,這在今天來講就是機器學習。
通過這種方法,人工智能的語音識彆率從過去的70左右,提高到了90。
同時語音識彆的規模,從幾百詞上升到了兩萬多詞,堪稱革命性的發展。
最重要的是賈裡尼克的研究得出一個結論。
即:
隨著數據量的不斷提升,係統會變得越來越好。
因此,國際上的人工智能研究分成了兩派。
一派是模仿人的鳥飛派,一派是數據驅動派。
而後者之所以沒有迅速發展起來,主要是因為數據獲取非常困難。
第一,當時沒有機讀資料。
第二,很多文學明珠不同版本分散在不同國家,並且其翻譯常常不是一一對應。
當然還有很多其它原因就不一一細說了。
但,這個困難在互聯網時代被改變了。
它的出現,讓研究機構可以輕易獲得全球的機讀資料。
而且數據量還在隨著互聯網的發展,每年呈幾倍,甚至十幾倍的增長。
在龐大的數據支持下,從1994年到2004年的十年裡,語音識彆的錯誤率減少了一半。
而機器翻譯的準確性提高了一倍。
其中20的貢獻來自方法的改進,80來自數據量的提升。
再就是今年2月份,在美國召開的全球機器翻譯係統大賽。
鴻蒙和googe通過數據驅動的方法,取得了50以上的beu分數。
&n沃森實驗室等研究機器翻譯幾十年的頂尖研究機構領先了5。
而提高這五個百分點在過去需要研究5~10年的時間。
在中文到英文的翻譯中,鴻蒙的得分比第三名領先了17,同樣采用數據驅動方法的googe比第二名領先了15,這個差距已經超出了一代人的水平。
而鴻蒙和googe都是成立不超過十年的新公司。
在人工智能研發上的底蘊肯定沒有南加州和沃森實驗室深厚。
但我們卻超過了他們。
原因是我們比他們更優秀嗎?
不是。