傳統的循環類模型對比較長的句子處理能力較差,這在翻譯任務中是比較影響用戶體驗的。相信嘗試機翻過長篇文章的人都有類似的體會。
“我直接整篇文章複製黏貼進去,然後把翻譯結果再複製黏貼出來。”
這是大多數人第一時間的想法,直接一步到位,這是墜吼的。
隻可惜,如果這麼做,最後翻譯出來的結果隻能是一團糟。隻要是超過四五十字的文本,就很容易翻譯得非常混亂了。
稍微聰明一點的人會發現,如果一段一段去複製翻譯,得出的翻譯結果就會好很多。
如果一句一句去翻譯,質量又會再次上升一些。
雖然有點麻煩,操作也更繁瑣了,但勝在不用動腦子。總歸還是比自己辛辛苦苦哼哧哼哧地去翻譯要輕鬆。
這裡麵有很大的一部分原因,就是翻譯技術在長距離上容易遺忘。
“模型結構變得簡單其實沒什麼奇怪的,數據的數量、質量以及訓練的策略更加重要。讓人眼花繚亂的那些算子們大部分情況下並不解決實際問題,隻是在特定的任務上抽獎罷了。”
對於同事們的將信將疑,孟繁岐也能理解。若是大家都很容易能接受,那早就有人做了類似的事情了。
“思想和方法的改變才是根本的東西,比如alex之後,許多人都在魔改那一套網絡,各種算子改來改去,這個小一點那個大一點,這裡多一點那裡少一點。”
“縫縫補補隻有非常微小的提升。”
“而殘差鏈接則是全新的思想,應用了這個技術之後,各種算子反而不需要那麼花裡胡哨,就統一使用相同的設置和配置,一樣能夠力壓群雄。”
伊利亞總體來說還是支持這種革命式的改變的,隻是大家都覺得合理的細微變化,自然就無法取得真正的突破。
“我先試試看,不知道好不好用。”伊利亞是非常講數據和實驗結果。
彆說是他覺得這個思路有機會,就算是他本人覺得這玩意不靠譜。隻要能有一套理論邏輯把它解釋通順,伊利亞都願意實現它嘗試一下看看效果。
“不過,純注意力機製的t方法在早期有不小的缺陷,模型小了效果不好,數據少了效果不好,訓練方式不對效果還是不好。”
看伊利亞和幾個將信將疑的同事開始了嘗試,孟繁岐心中清楚,他們恐怕是很難直接取得成功的。但這並不是方法本身的問題,而是諸多因素一起的限製。
“他們到時候不信,這倒也沒什麼關係,等英偉達的那批泰坦顯卡到了,我給他們整個大的。”
語言模型,就是要大!相比現在流行的辦法,隻要模型做大,彆的技巧就算不用那也是降維打擊。
切到自己的工作這邊來,文字合成語音,實際上和語音識彆技術是一對孿生兄弟。
一個是從文本生成語音,讓機器說話,另一個則是識彆語音成為文本,讓機器在比較熟悉的語言領域處理這些信息。
孟繁岐既然動了手,自然兩兄弟都打包一起做了。
先做公司有任務的文字生成語音這一邊,這個技術當然不僅僅隻限於在翻譯界麵上進行簡單的發音。
“文字生成語音的應用範圍還是比較廣泛的,比如穀歌剛剛收購的智能家居公司,其中就可以有各種語音助手,或者是有聲讀物,乃至於23年開始有些起色的ai歌手和ai主播這種泛娛樂方向。”
尤其是ai歌手,通過大量語音素材學習到一個人的嗓音特色之後,就完全可以生成海量的各種歌曲,突破了語言的限製,想讓他唱什麼就讓他唱什麼。
妙,實在是妙啊!
“現在的語音合成係統主要分三步走,前端預處理,聲學模型和聲碼器。雖然深度神經網絡可以更加激進地舍棄其中一些環節,但同樣也會帶來新的問題。”
“我的目的隻是為了完成奠基之作,推廣t方法出去,不必給自己加那麼大的工作量,語音不是我非常關注的方向。”
孟繁岐的思路比較清晰,雖然重生了,倒也不必要什麼工作都要複現那麼到位。
“前端處理主要是給定一個文本生產它的發音信息及語言學信息,這部分現在比較成熟,直接根據處理好的信息去學聲學模型會容易不少,可以顯著降低我的工作量。”
所謂的發音信息,可以理解為字形轉音形。
比如【滾】,音形就哥悟嗯,其實就是類似拚音的一種記錄方式,它比字形更接近最後的發音情況,更加一一對應。
並且,如果隻看字形,就很難處理多音字的問題,前端處理的過程中,就可以根據前後文判斷這個多音字在這裡到底是如何發音。
轉換成為音形之後,就不會讀錯了。
再有就是語言的韻律和節奏了,最初文本生成的語音,都是機械冰冷的同一個音調,毫無感情可言,與人類相去甚遠。
目前,在感情上發音技術還是有很大的上升空間,但在節奏停頓上,已經進步很大了,不會斷句斷在非常奇怪的位置上。
本小章還未完,請點擊下一頁後麵精彩內容!
模型的輸入是被語言係統標注後的音素,輸出則是梅爾頻譜。頻譜最後通過聲碼器,才會變成語音。
小學二年級的同學們都知道,信號有兩種表示方式,時域和頻域。一般的語音、音樂都是時域信號,對這些信號做傅裡葉變換,就能夠得到信號的頻域表示。
梅爾頻譜就是一種壓縮之後的頻譜,為了儘量減少數據的大小,同時也更加適配人耳的需求。
比如人耳對低頻敏感,對高頻則分不太清,因而梅爾頻譜對不同的範圍做了不同程度的取舍,用更小的數據量儘可能地還原了聲音的信息。
這項80多年前的技術,仍舊被廣泛使用當中。
“雖然我主要做的東西是第二步中的聲學模型,但現在的第三步聲碼器有些太落後了,我最好同時也做一版更新,搭配使用。”
聲碼器是根據梅爾頻譜圖生成聲音波形的生成式模型,這正好在孟繁岐已經做了不少工作的方向上。
順手為之,直接把文本和語音之間的來回轉換一步給它做到位了。
此時此刻,若是伊利亞等人知道了孟繁岐的打算,肯定會化身魯豫,本能地說出“真的嗎?我不信。”
哪有進入一個不大一樣的領域之後,不造螺絲直接造飛機的?
隻是讓你做一個翻譯頁麵上的本文發聲功能,你小子怎麼直接就想著給整個技術方向都顛覆了呢?
喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。