也是了,孟繁岐恍然明悟。
檢測任務的數據集收集和標注的成本更高,這也是為什麼孟繁岐奪冠的大賽,分類圖片一千多萬張,檢測圖片才幾萬張。
目前所有的這些內容全部都是人工去標注。
一張分類圖片,隻需要標注一個標簽,它是什麼即可。
而標注一張檢測圖片,經常需要在上麵添加數個,甚至十數個檢測框,需要細致到具體輪廓,然後再添加類彆。
標注的成本,自然是十數倍的差彆。
為圖片添加選框和標簽的工具也不完善,操作繁瑣,就更使得其緩慢。
截止到現在,深度神經網絡為基礎的檢測算法還有展現出什麼實際的商業價值,還停留在實驗室研究階段,實際上並沒有得到這些大公司足夠的重視。
目前商業用的檢測算法,還是傳統技術為主,並不需要訓練數據,而是通過人工設計的濾波器去提取特征。
孟繁岐演示使用的公開voc檢測數據一共就幾萬張,相比日後動輒幾千億的模型參數量,幾個t的數據量,這個規模有點像過家家。
此時此刻,就白度內部而言,李彥弘這個深度學習研究院,也隻在私下積累了不到十倍的私有數據量,也就差不多二三十萬張。
對於白度來說,基於這個本錢,想直接像後來的chatgpt一樣,一個人人可用的ai智能,那還差了十萬八千裡。
“李彥弘開這個技術發布會的意圖,其實就是伸手要數據。”孟繁岐稍一思索就想明白了,“通過展現這種神奇的效果,誘惑需要工業檢測的廠商,需要醫療圖像檢測的機構,想要開發自動駕駛的車企。”
“你們給我數據,我就能幫你們做這個功能。”
李彥弘這是想趁這個技術優勢,收割一大波免費的數據啊!
這小算盤,打得太精了。孟繁岐心中嘖道。
這個時間段,這種圖片數據的價值還沒有得到廣泛的理解,借助檢測技術的飛躍,白度收割這些圖片起來就像噶韭菜。
再過一段時間,就沒那麼容易白賺了。
“李總,你要是開技術發布會的話,能不能也宣傳宣傳我這個原作者,給我也打打廣告?”孟繁岐半開玩笑半認真地說道。
李彥弘開技術發布會去介紹自己的yolo檢測算法的話,可想而知,其關注度還是非常之高的。
都說流量時代,就是一坨屎有了流量都能演男女主角。
李彥弘如果在發布會上,將自己的功勞如實說出,都不需要添油加醋。
其社會影響力,遠遠比自己發好幾篇頂會都來得猛。
君不見,ai技術發了多少《自然》,《科學》頂刊了。關注度完全不如阿爾法狗擊敗李世石,柯潔。
老百姓不關注那個。
“當然沒問題。”李彥弘非常爽快地答應了,“這個技術本身就是你獨立研發創作,你願意匿名,還是願意來到台前,我都歡迎支持。”
“不過,如果要介紹你的話,我個人有一個小小的請求,我希望能夠稱呼你為,‘白度ai研究院特約研究員’,你看可不可以?”