第208章真的嗎我不信_重生之AI教父

傳統的循環類模型對比較長的句子處理能力較差，這在翻譯任務中是比較影響用戶體驗的。相信嘗試機翻過長篇文章的人都有類似的體會。

“我直接整篇文章複製黏貼進去，然後把翻譯結果再複製黏貼出來。”

這是大多數人第一時間的想法，直接一步到位，這是墜吼的。

隻可惜，如果這麼做，最後翻譯出來的結果隻能是一團糟。隻要是超過四五十字的文本，就很容易翻譯得非常混亂了。

稍微聰明一點的人會發現，如果一段一段去複製翻譯，得出的翻譯結果就會好很多。

如果一句一句去翻譯，質量又會再次上升一些。

雖然有點麻煩，操作也更繁瑣了，但勝在不用動腦子。總歸還是比自己辛辛苦苦哼哧哼哧地去翻譯要輕鬆。

這裡麵有很大的一部分原因，就是翻譯技術在長距離上容易遺忘。

“模型結構變得簡單其實沒什麼奇怪的，數據的數量、質量以及訓練的策略更加重要。讓人眼花繚亂的那些算子們大部分情況下並不解決實際問題，隻是在特定的任務上抽獎罷了。”

對於同事們的將信將疑，孟繁岐也能理解。若是大家都很容易能接受，那早就有人做了類似的事情了。

“思想和方法的改變才是根本的東西，比如alex之後，許多人都在魔改那一套網絡，各種算子改來改去，這個小一點那個大一點，這裡多一點那裡少一點。”

“縫縫補補隻有非常微小的提升。”

“而殘差鏈接則是全新的思想，應用了這個技術之後，各種算子反而不需要那麼花裡胡哨，就統一使用相同的設置和配置，一樣能夠力壓群雄。”

伊利亞總體來說還是支持這種革命式的改變的，隻是大家都覺得合理的細微變化，自然就無法取得真正的突破。

“我先試試看，不知道好不好用。”伊利亞是非常講數據和實驗結果。

彆說是他覺得這個思路有機會，就算是他本人覺得這玩意不靠譜。隻要能有一套理論邏輯把它解釋通順，伊利亞都願意實現它嘗試一下看看效果。

“不過，純注意力機製的t方法在早期有不小的缺陷，模型小了效果不好，數據少了效果不好，訓練方式不對效果還是不好。”

看伊利亞和幾個將信將疑的同事開始了嘗試，孟繁岐心中清楚，他們恐怕是很難直接取得成功的。但這並不是方法本身的問題，而是諸多因素一起的限製。

“他們到時候不信，這倒也沒什麼關係，等英偉達的那批泰坦顯卡到了，我給他們整個大的。”

語言模型，就是要大！相比現在流行的辦法，隻要模型做大，彆的技巧就算不用那也是降維打擊。

切到自己的工作這邊來，文字合成語音，實際上和語音識彆技術是一對孿生兄弟。

一個是從文本生成語音，讓機器說話，另一個則是識彆語音成為文本，讓機器在比較熟悉的語言領域處理這些信息。

孟繁岐既然動了手，自然兩兄弟都打包一起做了。

先做公司有任務的文字生成語音這一邊，這個技術當然不僅僅隻限於在翻譯界麵上進行簡單的發音。

“文字生成語音的應用範圍還是比較廣泛的，比如穀歌剛剛收購的智能家居公司，其中就可以有各種語音助手，或者是有聲讀物，乃至於23年開始有些起色的ai歌手和ai主播這種泛娛樂方向。”

尤其是ai歌手，通過大量語音素材學習到一個人的嗓音特色之後，就完全可以生成海量的各種歌曲，突破了語言的限製，想讓他唱什麼就讓他唱什麼。

妙，實在是妙啊！

“現在的語音合成係統主要分三步走，前端預處理，聲學模型和聲碼器。雖然深度神經網絡可以更加激進地舍棄其中一些環節，但同樣也會帶來新的問題。”

“我的目的隻是為了完成奠基之作，推廣t方法出去，不必給自己加那麼大的工作量，語音不是我非常關注的方向。”

孟繁岐的思路比較清晰，雖然重生了，倒也不必要什麼工作都要複現那麼到位。

“前端處理主要是給定一個文本生產它的發音信息及語言學信息，這部分現在比較成熟，直接根據處理好的信息去學聲學模型會容易不少，可以顯著降低我的工作量。”

所謂的發音信息，可以理解為字形轉音形。

比如【滾】，音形就哥悟嗯，其實就是類似拚音的一種記錄方式，它比字形更接近最後的發音情況，更加一一對應。

並且，如果隻看字形，就很難處理多音字的問題，前端處理的過程中，就可以根據前後文判斷這個多音字在這裡到底是如何發音。

轉換成為音形之後，就不會讀錯了。

再有就是語言的韻律和節奏了，最初文本生成的語音，都是機械冰冷的同一個音調，毫無感情可言，與人類相去甚遠。

目前，在感情上發音技術還是有很大的上升空間，但在節奏停頓上，已經進步很大了，不會斷句斷在非常奇怪的位置上。

本小章還未完，請點擊下一頁後麵精彩內容！

模型的輸入是被語言係統標注後的音素，輸出則是梅爾頻譜。頻譜最後通過聲碼器，才會變成語音。

小學二年級的同學們都知道，信號有兩種表示方式，時域和頻域。一般的語音、音樂都是時域信號，對這些信號做傅裡葉變換，就能夠得到信號的頻域表示。

梅爾頻譜就是一種壓縮之後的頻譜，為了儘量減少數據的大小，同時也更加適配人耳的需求。

比如人耳對低頻敏感，對高頻則分不太清，因而梅爾頻譜對不同的範圍做了不同程度的取舍，用更小的數據量儘可能地還原了聲音的信息。

這項80多年前的技術，仍舊被廣泛使用當中。

“雖然我主要做的東西是第二步中的聲學模型，但現在的第三步聲碼器有些太落後了，我最好同時也做一版更新，搭配使用。”

聲碼器是根據梅爾頻譜圖生成聲音波形的生成式模型，這正好在孟繁岐已經做了不少工作的方向上。

順手為之，直接把文本和語音之間的來回轉換一步給它做到位了。

此時此刻，若是伊利亞等人知道了孟繁岐的打算，肯定會化身魯豫，本能地說出“真的嗎？我不信。”

哪有進入一個不大一樣的領域之後，不造螺絲直接造飛機的？

隻是讓你做一個翻譯頁麵上的本文發聲功能，你小子怎麼直接就想著給整個技術方向都顛覆了呢？

喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。

第208章 真的嗎我不信（1 / 1）

第208章真的嗎我不信（1 / 1）