不過這也導致vae有時候生成的圖像比較糊,不如gan清晰。
前麵說的這些部分屬於是ae,自編碼器,而v指得則是在自編碼器基礎上添加的正態分布的隨機采樣,也就是高斯噪聲。
這種噪聲的添加,使得希望獲得的生成器對噪聲和乾擾比較魯棒,生成器訓練不好的時候,噪聲會低一些,生成器逐漸效果很好的時候,噪聲又會增加。
本質上和gan非常類似。
而孟繁岐想要提出的擴散模型,則是vae的一種升級版本,同樣的,也是gan的一種升級版本。
它集合了兩家之長,取其精華去其糟粕。
“變分自編碼器有一個核心的問題,就是這個變分後驗px|z表達能力和計算代價魚和熊掌不可兼得。變分方法如果簡單,表達能力就不豐富;而複雜的變分計算,計算損耗又太大了。”
本小章還未完,請點擊下一頁後麵精彩內容!
“我覺得,最大的問題還是在這個變分後驗。在vae中,我們先定義了生成器g,使得xgz,然後再學一個變分後驗px|z來適配這個生成器。有沒有可能把這個過程反一下,先定義一個變分後驗p再學一個生成器g呢?”
“反過來?”
辛頓師徒聽了之後,都楞了半晌。
“反過來的話,你是想用簡單的變分後驗將數據樣本映射到標準高斯分布,然後學一個生成器,模仿這個映射?”
“e這種方式的確搜索空間可以大不少,效率可能會很高。聽起來還不錯,但我不確定它是否好用。”
這種新的方式,裡麵涉及到的原理和數學推理論證,稍一估算就不少,說不定純推理論證就能發出好幾篇論文來。
“我想借助馬爾科夫鏈的平穩性,讓概率分布趨於某種平穩分布,逐漸逼近。”
孟繁岐解釋道。
辛頓分析道“這個逐漸逼近的過程,其實還是加噪聲唄,還是隨機在采樣。一步步前向,一步步加入噪聲。”
“對,噪聲就像是在馬爾科夫鏈演化的過程當中,逐漸溶解擴散,在這個體係中逐漸地分布均勻,我叫它擴散模型。”
噪聲加入模型中,先是在局部比較濃鬱,而後隨著逐漸一步步迭代的過程均勻擴散開來。
就像是一滴滴墨水滴入清水當中,然後緩緩攪拌均勻,這便是擴散模型名字的由來。
假設清水是我們需要的東西,前向就是清水加墨的過程,而反向則是從墨水生成清水的過程,模型學到了如何過濾噪聲。
通過大量的前向學習之後,擴散模型就有了從噪聲圖憑空優化直至一張優美圖片的能力,也就可以去完成各種製圖工作了。
“聽起來很有潛力,不過為什麼高斯分布的馬爾科夫鏈,會對生成器模仿某一個映射有幫助呢?這個問題還需要後麵我們仔細討論一下。”
辛頓隻是想了一會,就覺得這個方法應該會好用,但是卻一時間想不明白原理和為什麼。
今天畢竟還是孟繁岐文章登陸自然封麵的慶祝聚會,幾人雖然好奇,但也不至於當場就開始研究。
並且,擴散模型距離後來大家使用的出圖技術穩定擴散模型還差了好幾個組件呢,輪子還缺了幾個,因而孟繁岐也不著急此事。
“其實現在最缺的還是數據,各個領域都比較缺,不過穀歌這邊已經開始用驗證碼數據標注了,一些比較常見的方向應該很快會有進展。”
伊利亞笑著說道。
自從進入人工智能時代,各種網頁上的驗證碼就變得離奇了許多。
最開始還隻是識彆字母,做做加減法之類的。
現在招式就多起來了,給圖片分類的;九宮格十二宮格,讓你選擇有路牌有車的;甚至還有讓你仔細勾選某種物體輪廓的,簡直離譜!
而自101novel.com12年起,穀歌就已經開始把偷偷把穀歌街景中最難以識彆的門牌和路牌加入進了驗證碼,請用戶幫忙標注。
看似在區分機器人,實際上在做義務勞動!
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。