第208章 真的嗎我不信_重生之AI教父_思兔 
思兔 > 都市言情 > 重生之AI教父 > 第208章 真的嗎我不信

第208章 真的嗎我不信(1 / 1)

傳統的循環類模型對比較長的句子處理能力較差,這在翻譯任務中是比較影響用戶體驗的。相信嘗試機翻過長篇文章的人都有類似的體會。

“我直接整篇文章複製黏貼進去,然後把翻譯結果再複製黏貼出來。”

這是大多數人第一時間的想法,直接一步到位,這是墜吼的。

隻可惜,如果這麼做,最後翻譯出來的結果隻能是一團糟。隻要是超過四五十字的文本,就很容易翻譯得非常混亂了。

稍微聰明一點的人會發現,如果一段一段去複製翻譯,得出的翻譯結果就會好很多。

如果一句一句去翻譯,質量又會再次上升一些。

雖然有點麻煩,操作也更繁瑣了,但勝在不用動腦子。總歸還是比自己辛辛苦苦哼哧哼哧地去翻譯要輕鬆。

這裡麵有很大的一部分原因,就是翻譯技術在長距離上容易遺忘。

“模型結構變得簡單其實沒什麼奇怪的,數據的數量、質量以及訓練的策略更加重要。讓人眼花繚亂的那些算子們大部分情況下並不解決實際問題,隻是在特定的任務上抽獎罷了。”

對於同事們的將信將疑,孟繁岐也能理解。若是大家都很容易能接受,那早就有人做了類似的事情了。

“思想和方法的改變才是根本的東西,比如alex之後,許多人都在魔改那一套網絡,各種算子改來改去,這個小一點那個大一點,這裡多一點那裡少一點。”

“縫縫補補隻有非常微小的提升。”

“而殘差鏈接則是全新的思想,應用了這個技術之後,各種算子反而不需要那麼花裡胡哨,就統一使用相同的設置和配置,一樣能夠力壓群雄。”

伊利亞總體來說還是支持這種革命式的改變的,隻是大家都覺得合理的細微變化,自然就無法取得真正的突破。

“我先試試看,不知道好不好用。”伊利亞是非常講數據和實驗結果。

彆說是他覺得這個思路有機會,就算是他本人覺得這玩意不靠譜。隻要能有一套理論邏輯把它解釋通順,伊利亞都願意實現它嘗試一下看看效果。

“不過,純注意力機製的t方法在早期有不小的缺陷,模型小了效果不好,數據少了效果不好,訓練方式不對效果還是不好。”

看伊利亞和幾個將信將疑的同事開始了嘗試,孟繁岐心中清楚,他們恐怕是很難直接取得成功的。但這並不是方法本身的問題,而是諸多因素一起的限製。

“他們到時候不信,這倒也沒什麼關係,等英偉達的那批泰坦顯卡到了,我給他們整個大的。”

語言模型,就是要大!相比現在流行的辦法,隻要模型做大,彆的技巧就算不用那也是降維打擊。

切到自己的工作這邊來,文字合成語音,實際上和語音識彆技術是一對孿生兄弟。

一個是從文本生成語音,讓機器說話,另一個則是識彆語音成為文本,讓機器在比較熟悉的語言領域處理這些信息。

孟繁岐既然動了手,自然兩兄弟都打包一起做了。

先做公司有任務的文字生成語音這一邊,這個技術當然不僅僅隻限於在翻譯界麵上進行簡單的發音。

“文字生成語音的應用範圍還是比較廣泛的,比如穀歌剛剛收購的智能家居公司,其中就可以有各種語音助手,或者是有聲讀物,乃至於23年開始有些起色的ai歌手和ai主播這種泛娛樂方向。”

尤其是ai歌手,通過大量語音素材學習到一個人的嗓音特色之後,就完全可以生成海量的各種歌曲,突破了語言的限製,想讓他唱什麼就讓他唱什麼。

妙,實在是妙啊!

“現在的語音合成係統主要分三步走,前端預處理,聲學模型和聲碼器。雖然深度神經網絡可以更加激進地舍棄其中一些環節,但同樣也會帶來新的問題。”

“我的目的隻是為了完成奠基之作,推廣t方法出去,不必給自己加那麼大的工作量,語音不是我非常關注的方向。”

孟繁岐的思路比較清晰,雖然重生了,倒也不必要什麼工作都要複現那麼到位。

“前端處理主要是給定一個文本生產它的發音信息及語言學信息,這部分現在比較成熟,直接根據處理好的信息去學聲學模型會容易不少,可以顯著降低我的工作量。”

所謂的發音信息,可以理解為字形轉音形。

比如【滾】,音形就哥悟嗯,其實就是類似拚音的一種記錄方式,它比字形更接近最後的發音情況,更加一一對應。

並且,如果隻看字形,就很難處理多音字的問題,前端處理的過程中,就可以根據前後文判斷這個多音字在這裡到底是如何發音。

轉換成為音形之後,就不會讀錯了。

再有就是語言的韻律和節奏了,最初文本生成的語音,都是機械冰冷的同一個音調,毫無感情可言,與人類相去甚遠。

目前,在感情上發音技術還是有很大的上升空間,但在節奏停頓上,已經進步很大了,不會斷句斷在非常奇怪的位置上。

本小章還未完,請點擊下一頁後麵精彩內容!

模型的輸入是被語言係統標注後的音素,輸出則是梅爾頻譜。頻譜最後通過聲碼器,才會變成語音。

小學二年級的同學們都知道,信號有兩種表示方式,時域和頻域。一般的語音、音樂都是時域信號,對這些信號做傅裡葉變換,就能夠得到信號的頻域表示。

梅爾頻譜就是一種壓縮之後的頻譜,為了儘量減少數據的大小,同時也更加適配人耳的需求。

比如人耳對低頻敏感,對高頻則分不太清,因而梅爾頻譜對不同的範圍做了不同程度的取舍,用更小的數據量儘可能地還原了聲音的信息。

這項80多年前的技術,仍舊被廣泛使用當中。

“雖然我主要做的東西是第二步中的聲學模型,但現在的第三步聲碼器有些太落後了,我最好同時也做一版更新,搭配使用。”

聲碼器是根據梅爾頻譜圖生成聲音波形的生成式模型,這正好在孟繁岐已經做了不少工作的方向上。

順手為之,直接把文本和語音之間的來回轉換一步給它做到位了。

此時此刻,若是伊利亞等人知道了孟繁岐的打算,肯定會化身魯豫,本能地說出“真的嗎?我不信。”

哪有進入一個不大一樣的領域之後,不造螺絲直接造飛機的?

隻是讓你做一個翻譯頁麵上的本文發聲功能,你小子怎麼直接就想著給整個技術方向都顛覆了呢?

喜歡重生之ai教父請大家收藏101novel.com重生之ai教父101novel.com更新速度全網最快。



最新小说: 兩界之門 小師妹明明超強卻過分沙雕 豪門作精破產後,上門老公成金主 契約者與樂園與緯度 重返二十歲的惡劣雄蟲又被迷暈了 鳳族女帝穿越成豪門少奶奶後,總裁傻眼了 我和隱婚妻子是心靈伴侶 截教:悟性逆天!拾取詞條證混元 您有一封來自鬼校的錄取通知書 誘寵玫瑰