“現在穀歌的驗證碼是怎麼做的?”
孟繁岐有點好奇,他此前一直對這方麵的事情有所懷疑,不過卻沒有仔細研究過,尤其是比較早期的時候。
“現在的所謂驗證碼係統,說得專業一點,叫【區分人機的全自動圖靈測試係統】ctcha,前些年是一家叫做rectcha的公司做的,不過這家公司已經被穀歌收購了。”
阿裡克斯在這方麵關注過一段時間“現在世界上用得最多的驗證碼係統,就是這家公司的產品。”
“當時是卡耐基梅隆大學的一個教授想到的,可以說這個係統從推出之初,就是打著白嫖勞動力的主意。”
計算機在1980到1990年左右開始逐漸進入個人家庭,在二十一世紀初,人類開始初步進入數字化生活,並且越來越依賴這種數字化。
這種數字化突如其來,帶來了一個很大的難題那就是這幾千年來,所有的知識和典籍,基本上都是通過紙質書籍來記載的。
這些東西很多都是人類的瑰寶,在新的計算機時代,怎麼把這些流傳下來的知識數字化,是一個很大的難題。
最簡單的辦法,就是手打錄入,但這個就比較要命了。
手工錄入需要的人數可不是三四位數那麼簡單,沒有幾萬上十萬人,這項工程是不大可能做出點名頭的。
市值萬億的蘋果公司,人數才十來萬,想搞十萬人來錄入,代價顯然太大了一些。
人力的問題說白了還是錢的問題,這個工程雖然意義重大,什麼都好,但就是沒有什麼油水,它不賺錢。
退一步說,即便你有錢也有人,人類做這種長時間的機械勞動,就是很容易輸錯。
彆的不說,網文作者一天幾千字,就到處都是錯彆字,這還是自己想出來的內容。
若是讓他們錄入彆人的文本,還很可能是看不明白的內容,那還得了?輸錯字輸串行都是再正常不過的事情了。
另一種策略,那就是先掃描,然後結合文字識彆技術,自動錄入。
聽起來非常不錯,但大家都知道,直到101novel.com23年,這種圖像直接識彆文字的功能,都仍舊有很多的缺陷和不便之處。
就彆提二十一世紀初了,而且很多早期的文字典籍,人看都費勁,掃描出來一團漿糊,識彆出來更是一團亂碼。
因而,07年的時候,rectcha這個係統就出現了。
它先是掃描這些文本,然後選出一個個的單詞,最後在單詞上麵加點特技,讓人可以識彆出來,機器卻很難做到。
這就是為什麼大家看到的字母驗證碼總是千奇百怪的形狀,上麵還有很多乾擾的條紋。
這種驗證裝置,看似是用於驗證,可通常都是真假結合。
比如第一個是有正確答案的真的【驗證碼】,第二個則是其實根本沒有答案的義務勞動。
如果你第一個填對了,它就會默認你對第二個驗證碼的勞動也是正確的,並把這個結果傳回項目主機。
並且,同一張義務勞動的圖片還會交叉發給多個人類用戶,用以對比和確保答案的正確和可信程度。
“你猜猜,rectcha每天能夠協助錄入多少字符?”
阿裡克斯帶著一臉壞笑,他覺得這個數字量孟繁岐一定猜不到。
“你都這麼說了,我肯定往大了猜,每天一天八萬多秒,一秒就算他一百個,八百萬?”
“08年的時候每天六千萬字符,現在應該幾個億了。”
根據統計估算,全世界每天輸入驗證碼上億次,每次接近十秒鐘。
每天網民在驗證碼上的時間,就得接近百萬小時。
通過白嫖這部分勞動力,不知不覺之間,人類已經通過驗證碼的方式錄入了超過兩千五百萬本書進入數字世界。
這還僅僅隻用了幾年的時間。
“09年穀歌把rectcha買下來了,此後,驗證碼的種類開始變得多種多樣起來,而不僅僅隻是文本驗證了。”
穀歌09年花了將近三千萬美金買這個係統,當然不是為了做慈善。
此舉,是為了獲取海量的帶標簽數據,為自己後來的人工智能做準備。一半驗證你是不是真人,有沒有認真答題;另一半,則開始讓你義務勞動打白工。
標注門牌號,路牌,分類各種圖片,隻要你生活在網絡的世界,伱就或多或少地每天要給穀歌打幾十秒的白工。
“所以說,雖然驗證碼誕生之初,解決了網絡環境和用戶安全的大問題,但後麵其實性質已經發生了改變?”