訓練ai是件大事,陸恒已經有成熟的技術,是係統根據現在的時間給出的最優技術方案。
但恒創掌握的數據其實並沒有度娘騰達這些成立很久的互聯網公司多。
頭條軟件也才運營半年罷了,目前用戶還沒破千萬,而且也隻是新聞類軟件,最好的訓練數據其實是包含用戶信息的數據。
比如評論、貼吧討論、前世的自媒體時代產生的大量文章。
但現在這些都沒有。
不過也有辦法解決,陸恒的解決方案也比較簡單,那就是使用書籍訓練。
從人類誕生到現在數千年產生的所有文字數據來訓練ai。
新技術的最大優點就是一種類人邏輯算法,最基礎的架構仿生人類思維,隨後投入任何數據都在增加知識寬度。
並不是前世那種靠著無數文字壘砌,計算前後文字字符出現概率等等。
因為參觀團就要到公司了,在這之前最好將ai助手也安裝在手機內,這樣才能帶來更大震撼,讓合作夥伴更有信心。
陸恒這幾天也參與到訓練ai當中。
公司總部還沒有完善,軟件工程師們目前還在老大廈工作,這並不會影響訓練ai的速度,ai就在服務器裡麵,不停投入數據就行了。
陸恒叫來楊程,公開版權的電子圖書數據已經用的差不多了,現在到了網絡小說產生的數據。
接下來還有論文數據庫的數據。
“買斷的小說現在有多少,愛閱小說書庫一共多少本書?”陸恒問道。
楊程有些疑惑陸恒怎麼關心起小說,他想了想回道“字數達到百萬的差不多四五萬本吧,每天有近萬作者日更新4000字以上。”
愛閱小說前期發展比較困難,多數都是走的買斷路線。
再加上當初投資囧係列電影賺了不少錢,都花在了小說上。
這倒是方便陸恒使用這些數據訓練ai了。
數據量還不夠多,陸恒說道“和陳總談一談吧,把啟點收購了,我們需要他們小說書庫用來訓練小說。”
記得前世再過兩年,啟點的團隊也會和陳天蕎的管理團隊發生衝突,最後帶著一批人出走成立了新的網站,現在應該也有不少矛盾了。
去年陳天蕎修改作者合同,想要掌控小說的更多版權話語權,也讓不少作者出走。
現在應該還是有希望收購站。
陳天蕎和他有些矛盾,不過在利益麵前這都不是事兒。
當初陳總還在媒體麵前說,陸恒身價多少,和他比?
現在不過一年過去,再看當年他說的話,已經成為陳總的汙點之一了。