然後自己從中總結歸納,看看能不能找到思路去優化以後的顯卡硬件架構。
卻沒有想到,孟繁岐直接幫他跳過了中間的那麼多步驟,直接一步到位,直搗黃龍了。
“你覺得現在麥克斯韋架構,有什麼不足之處?”
黃仁勳剛剛才在台上發布了麥克斯韋架構,此時聽到有人表示這個架構還有很多不足,他一點也不惱怒,不覺得自己的產品受到了侮辱,反而十分開心。
這章沒有結束,請點擊下一頁!
孟繁岐看到他的反應,也不意外。按孟繁岐對黃仁勳的了解,他可能是矽穀大公司老板裡對新技術細節最了解最追求的了,幾十年來,仍舊管理第一線的工程師,布置任務並聽取彙報。
即便後來如日中天,他也從來沒有鬆懈過,就更不提現在了。
“下一代的新架構,當會加很多的cuda核心,這種常規的更新不提,我覺得很重要的一點是,良好的fp16數據處理能力。”
fp32是單精度浮點數,fp16指半精度浮點數。
後者相比前者隻使用一半的比特去表達浮點數字,因此速度上是fp32的兩倍,顯存的需求上也減少了一半。
隻不過精度上會略有損失,而根據後來的經驗,這種損失是比較小,而且完全可以接受的。
“你是說,今後人工智能的訓練和部署,將會很快往fp16,甚至更小的數字類型上轉移?”
黃仁勳品了一下,這是個相當重要的信息,早準備幾個月,最後達成的效果可能會天差地彆。
“除了fp16還有另一種數字類型我比較推薦,這個過兩天我專門寫兩頁發給你。”
fp16後來在大模型時代出現了一些比較煩人的數值問題,bf16作為一種新的格式逐漸流行了起來。
它和fp16的速度和顯存占用一致,隻是用來表達整數和小數的比特數量不一。
“另一方麵,就是多顯卡的交互問題。隨著單gpu的計算能力越來越難以應對深度學習對算力的需求,人們自然而然會開始用多個gpu去解決問題。”
“從單機多gpu到多機多gpu,這當中對gpu互連的帶寬的需求也越來越多。采用fiband和100gbether去通信,在單機內,特彆是從單機單卡到達單機8卡以後,pcie的帶寬往往就成為了瓶頸。”
“pcie是單通道兩對差分線,一對發送一對接收。英偉達完全可以考慮用8對或者更多差分線組成一根子鏈,一對子鏈中一根發送數據一根接收數據,組成一根鏈接。”
“畢竟即便算力再強,由於顯存的限製,我們仍舊需要使用多個gpu完成一個任務,這種情況下,數據傳輸互通的能力至關重要。”
“你很確定規模龐大的模型會成為市場的主流嗎?”
孟繁岐說得這兩點,黃仁勳基本都是認可的,一定程度上他也已經有了模糊的想法往這些方向發展。
孟繁岐隻是非常清晰地將內容表達了出來,讓他如撥雲見日,茅塞頓開。
可對於模型的大小判斷上,他有些不大確定。
目前業界對規模特彆龐大的模型,還是比較不看好的。
一是因為孟繁岐當初的drea,千層並沒有比百層有更好的效果,模型大小增加了十倍,可在千分類上的性能卻相差無幾。這就顯得大模型有些愚蠢。
二是因為孟繁岐數次做出了騷操作,計算量動不動減少快十倍,參數量也是大大削減,結果對性能影響卻很小。
如此一來,在這種技術的環境和趨勢下,的確很難有人會料到超大模型會有那麼魔幻的性能突破。
“隻要這批顯卡到了穀歌,明年此時,我一定能讓大模型成為主流。”
孟繁岐信心滿滿地說道。
“你若是真的能做到,明年的新卡,我直接送伱一千張。”
黃仁勳不是亂說,也不是不相信這件事。
而是倘若孟繁岐把大模型做成了主流,那這方麵顯卡需求量,可以說十倍百倍不止了。
和龐大的利潤相比,送個一兩千張,根本不叫事。
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。