彼此之間的交互通訊設備,也得配齊,否則發揮不出這些顯卡的全部能力。
這些東西準備好,價格又得翻一倍,至少得五六個億美金。
設備運轉起來,跟挖礦特彆像,光是每天需要的電費也是百萬級彆的天文數字,訓練一整個chatgpt出來的成本自然不低。
本小章還未完,請點擊下一頁後麵精彩內容!
隻是想要得到這個模型,就得大幾個億美金進去。後續chatgpt給用戶使用,所需要的算力和設備隻會更多。
因為訓練模型隻是單個實體在持續更新自己的內容,耗費的資源雖多,卻是一次性的,一勞永逸。
而用戶在使用的時候則是多個內容不再變化的實體持續推理,模型則需要反複根據用戶不同的新輸入一直生成回複。
雖然推理比訓練的損耗小了許多,但也架不住百萬千萬的用戶一起使用。
當時微軟為了chatgpt的廣泛使用,在六十多個數據中心,給openai騰出了幾十萬張gpu顯卡,簡直是壕無人性。
惹得自家的員工都嫉妒壞了,為什麼他們openai可以用,我們微軟自己的員工用不了?
這不公平!
“chatgpt級彆的模型的大小還是跟現在我做過的那些差了太遠了。”孟繁岐在心中開始飛速地計算了起來。
他需要估算出,自己到底大概需要多少張泰坦z,一會才好跟老黃討價還價。
深度學習的模型參數很容易計算,不過算完總是容易忘記。
孟繁岐有一套獨特的辦法,使得他可以對各個經典模型參數量之間的比例基本上了如指掌。
那就是以鄭爽為基本計量單位。鄭爽日薪百來萬,一年就是六七個億,可以記錄65億為一爽。
經典的殘差網絡,也就是孟繁岐去年的成名作,差不多0033爽。
chatgpt,1760億參數,差不多250爽。
也就是說,孟繁岐目前經常訓練的模型,參數量上距離chatgpt得有7600多倍的差距。
這實在是現階段難以負擔的規模。
“不過好在chatgpt的爆火後來引發了許多學者去思考如何將這個模型壓縮得更小。”
孟繁岐對此感到慶幸,由於chatgpt規模實在太大了,導致絕大部分玩家都根本玩不起這個東西。
因而整個業界都在想辦法,到底怎麼樣才能夠以百分之一百分之二左右的規模做到類似、乃至接近chatgpt的效果。
“所以說,人窮也是有好處的,窮則思變嘛!”
若不是大家都玩不起250爽的大模型,又怎麼會一個個都如此擅長把3到4爽大小的模型做好呢?
“我可以初步實現一版本十多億左右參數的迷你chatgpt,這樣我需要的顯卡數量大約在800到1000張左右,總價兩三百萬美金,這就在我很容易負擔的範圍之內了。”
孟繁岐希望黃仁勳為穀歌大腦一大批顯卡是沒錯,但如今的他可並不缺錢了。
顯卡進了穀歌,勢必要被分走一大部分,用途上,也不能夠百分百自己說了算。
不如多花點錢,自己先做一個超算中心。
微軟那樣上萬張a100的究極奢華十億美金計算中心,孟繁岐做不起,但做一個大幾百、乃至千張泰坦z的規模,還是負擔得起的。
不就是錢嘛!不差錢!
唯一的問題在於,不知道老黃的泰坦z到底生產了多少。
畢竟雖然兩邊都有合作的意向,可若是存貨不多,黃仁勳也不可能真的讓孟繁岐把這批顯卡全都自己搬走了。
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。