第162章網絡的重參數化_重生之AI教父

實際上，馬斯克沒有對這件事情抱有特彆大的希望。在他看來，孟繁岐上次給出的方案已經好到非常離譜了。

在這個大家才剛開始複現dre，還沒把殘差的原理和一些變種搞明白的時間點，孟繁岐已經針對各種不同平台的其他運算設備，做了相當多的實驗。

從而通過優化算子結構，調整特定計算過程的方式，將這個核心的骨乾網絡參數量減少了接近十倍。

運算快了這麼多，性能卻沒什麼變化，這已經非常不得了了。

馬斯克有這一問，也是私下裡的隨口一提。

但他名頭太大，以往自己做的事情又太瘋狂，導致孟繁岐聽著他那頗為低沉，有磁性的聲音之時，當了真。

還真以為這是個非常嚴肅認真的需求。

“自動駕駛的熱度確實也快起來了，我專門針對這方麵做點優化工作，也不算虧。”

孟繁岐一邊利用著重生優勢開始抄底一些車企的股票，一邊開始著手實現一個巧妙的加速並且節省內存的方式。

這個新的優化辦法叫做網絡結構的重參數化。

這半年來，視覺方法性能的突飛猛進來自於孟繁岐提出的殘差方法，也就是將yfx變為fx+x。

這裡的寫法比較簡便，將一係列複雜的操作，抽象歸納為f，在實際運算過程中，這個f還是比較複雜的，往往需要算上好一會。

但在計算的時候，就有一個問題了，原本yfx運算開始的時候，就不再需要繼續存儲x這個變量了，因為它已經在參與fx的運算。

在運算過程當中，它會變成其他的中間變量，然後最終變為我們所想要的y。

可在殘差辦法當中，yfx+x，x這個原始的輸入，是不能夠舍棄的。

必須有空間一直被占用著，用來存放這個x，因為它還等著最後加上去呢。

在比較複雜，分辨率比較高的任務當中，這個變量的大小是相當可觀的。

這種情況有沒有辦法可以規避？規避之後，殘差方法帶來的性能提升能不能不要被影響？

答案當然是肯定的，完全可以做到。

孟繁岐準備實現的這種結構重參數化，其最核心的思想就是模型訓練和實際使用推理的分離。

首先構造一係列結構（一般用於訓練），並將其參數等價轉換為另一組參數（一般用於推理），從而將這一係列結構等價轉換為另一係列結構。

在現實場景中，訓練資源一般是非常豐富的，可以在大型的服務器上得到。

而推理的時候，計算資源往往會比較有限，因此大家更在意的是推理時的開銷和性能。

想要訓練時的結構較大，具備好的某種性質，比如性能特彆好，準確率特彆高。

但在推理的時候，則把結構變小變快，同時在數學上等價於大型的結構。

孟繁岐的這個新辦法，就了這種可能，他相信，重參數+移動端網絡的算力削減，將會成為自動駕駛領域的一大催化劑。

本站網站:

。

喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。

第162章 網絡的重參數化（2 / 2）