<kbd id="9plqc"><label id="9plqc"></label></kbd>

        <th id="9plqc"></th>
        1. <center id="9plqc"><video id="9plqc"></video></center>
          <sub id="9plqc"><form id="9plqc"><pre id="9plqc"></pre></form></sub>
          <nav id="9plqc"><form id="9plqc"><legend id="9plqc"></legend></form></nav>
          跨語(yǔ)種「AI同傳」震撼登場(chǎng)!Meta谷歌連發(fā)重大突破,顛覆語(yǔ)音翻譯 您所在的位置:網(wǎng)站首頁(yè) 屬狗的適合住幾層樓最合適 跨語(yǔ)種「AI同傳」震撼登場(chǎng)!Meta谷歌連發(fā)重大突破,顛覆語(yǔ)音翻譯

          跨語(yǔ)種「AI同傳」震撼登場(chǎng)!Meta谷歌連發(fā)重大突破,顛覆語(yǔ)音翻譯

          2023-12-10 21:02| 來(lái)源: 網(wǎng)絡(luò)整理| 查看: 265

          就在Meta AI成立10周年之際,研究團(tuán)隊(duì)重磅開(kāi)源了在語(yǔ)音翻譯領(lǐng)域的突破性進(jìn)展——「無(wú)縫交流」(Seamless Communication)模型。

          圖片

          作為首個(gè)開(kāi)源的「大一統(tǒng)模型」,Seamless集成了其他三款SOTA模型的全部功能(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2),可以實(shí)時(shí)進(jìn)行更自然、更真實(shí)的跨語(yǔ)言交流。

          甚至可以說(shuō),它從本質(zhì)上實(shí)現(xiàn)了通用語(yǔ)音翻譯器(Universal Speech Translator)的概念。

          緊接著,谷歌也分享了自己在無(wú)監(jiān)督語(yǔ)音翻譯的突破——Translation 3。

          通過(guò)利用SpecAugment、MUSE嵌入和反向翻譯,Translatotron 3在翻譯詞匯的同時(shí),更能處理停頓、語(yǔ)速、說(shuō)話者身份等非文本語(yǔ)音細(xì)微差異。

          不僅如此,Translatotron 3在還可以直接從單語(yǔ)數(shù)據(jù)學(xué)習(xí),擺脫了對(duì)并行數(shù)據(jù)的依賴。

          論文地址:https://arxiv.org/abs/2305.17547

          結(jié)果顯示,在翻譯質(zhì)量、說(shuō)話者相似性和語(yǔ)音自然度方面表現(xiàn)出色,Translation 3都超越了傳統(tǒng)系統(tǒng)。

          探索溝通的未來(lái),Translatotron 3或?qū)⒁郧八从械男屎蜏?zhǔn)確性打破語(yǔ)言障礙。

          Seamless:「無(wú)縫」語(yǔ)音翻譯大一統(tǒng)

          Seamless將SeamlessM4T v2的高質(zhì)量和多語(yǔ)言、SeamlessStreaming的低延遲和SeamlessExpressive的表達(dá)一致性,全部融合到了一個(gè)統(tǒng)一的系統(tǒng)之中。

          由此,Seamless也為了第一個(gè)能夠同時(shí)保持聲音風(fēng)格和語(yǔ)調(diào)的流式翻譯模型。

          SeamlessExpressive:完美保留語(yǔ)音語(yǔ)調(diào)

          雖然現(xiàn)有的翻譯工具能熟練地捕捉對(duì)話內(nèi)容,但它們的輸出通常依賴于單調(diào)的機(jī)器人文本到語(yǔ)音系統(tǒng)。

          相比之下,SeamlessExpressive則可以保留語(yǔ)音的細(xì)微差別,如停頓和語(yǔ)速,以及聲音風(fēng)格和情感基調(diào)。

          ,時(shí)長(zhǎng)00:28

          為了在不同語(yǔ)言中保留說(shuō)話者的語(yǔ)音風(fēng)格,研究人員在SeamlessM4T v2基礎(chǔ)模型中加入了表現(xiàn)力編碼器。這一過(guò)程可確保單元生成遵循預(yù)期的語(yǔ)速和節(jié)奏。

          此外,將SeamlessM4T v2中的HiFi-GAN單元聲碼器替換為以源語(yǔ)音為條件的表現(xiàn)力單元到語(yǔ)音生成器,可實(shí)現(xiàn)音調(diào)、情感和風(fēng)格的無(wú)縫傳輸。

          SeamlessStreaming:AI版「同聲傳譯」

          SeamlessStreaming是首個(gè)大規(guī)模多語(yǔ)言模型,其翻譯延遲時(shí)間約為兩秒,準(zhǔn)確度幾乎與離線模型相同。

          SeamlessStreaming以SeamlessM4T v2為基礎(chǔ),支持近100種輸入和輸出語(yǔ)言的自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音到文本翻譯,以及近100種輸入語(yǔ)言和36種輸出語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯。

          Meta AI最先進(jìn)的流模型SeamlessStreaming能夠智能地決定何時(shí)有足夠的語(yǔ)境來(lái)輸出下一個(gè)目標(biāo)文本或語(yǔ)音片段。

          SeamlessStreaming學(xué)習(xí)到的讀/寫(xiě)策略,會(huì)根據(jù)部分音頻輸入來(lái)決定是「寫(xiě)」并生成輸出,還是「讀」并繼續(xù)等待更多輸入。并且,還可以自適應(yīng)不同的語(yǔ)言結(jié)構(gòu),從而在許多不同的語(yǔ)言對(duì)中發(fā)揮更強(qiáng)的性能。

          SeamlessM4T v2:更高質(zhì)量、更高精度

          2023年8月,Meta AI推出了第一版SeamlessM4T——一個(gè)基礎(chǔ)多語(yǔ)言和多任務(wù)模型,可為跨語(yǔ)音和文本的翻譯和轉(zhuǎn)錄提供SOTA的結(jié)果。

          在此基礎(chǔ)上,研究人員于11月推出了改進(jìn)版的SeamlessM4T v2,作為全新SeamlessExpressive和SeamlessStreaming模型的基礎(chǔ)。

          升級(jí)后的SeamlessM4T v2采用非自回歸文本到單元解碼器,從而提高了文本和語(yǔ)音輸出之間的一致性。

          其中,w2v-BERT 2.0編碼器是在450萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來(lái)的。相比之前,第一版的訓(xùn)練數(shù)據(jù)只有100萬(wàn)小時(shí)。

          此外,SeamlessM4T v2還通過(guò)全新的SeamlessAlign,為低資源語(yǔ)言補(bǔ)充了更多數(shù)據(jù)。

          評(píng)估結(jié)果顯示,SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任務(wù)上的表現(xiàn),明顯優(yōu)于之前的SOTA模型。

          SeamlessAlignExpressive

          基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作,Meta AI推出了首個(gè)表達(dá)式語(yǔ)音對(duì)齊程序——SeamlessExpressive。

          從原始數(shù)據(jù)開(kāi)始,富有表現(xiàn)力的對(duì)齊程序會(huì)自動(dòng)發(fā)現(xiàn)成對(duì)的音頻片段,這些片段不僅具有相同的含義,而且具有相同的整體表現(xiàn)力。

          基于此,Meta還創(chuàng)建了第一個(gè)用于基準(zhǔn)測(cè)試的多語(yǔ)言音頻對(duì)齊的大型基準(zhǔn)測(cè)試數(shù)據(jù)集——SeamlessAlignExpressive。

          Translatotron 3:引領(lǐng)無(wú)監(jiān)督語(yǔ)音翻譯新時(shí)代

          谷歌聯(lián)合DeepMind提出的無(wú)監(jiān)督語(yǔ)音到語(yǔ)音翻譯架構(gòu)Translatotron 3,不僅為更多語(yǔ)言對(duì)之間的翻譯,還為停頓、語(yǔ)速和說(shuō)話人身份等非文本語(yǔ)音屬性的翻譯打開(kāi)了大門(mén)。

          這種方法不用對(duì)目標(biāo)語(yǔ)言進(jìn)行任何直接的監(jiān)督,而且可以在翻譯過(guò)程中保留源語(yǔ)音的其他特征(如語(yǔ)調(diào)、情感等)。

          圖片

          Translatotron 3在保留源語(yǔ)音其他特征(如語(yǔ)調(diào)、情感等)的同時(shí),無(wú)需對(duì)目標(biāo)語(yǔ)言進(jìn)行任何直接的監(jiān)督,并且還

          摒棄了對(duì)雙語(yǔ)語(yǔ)音數(shù)據(jù)集的需求。

          其設(shè)計(jì)包含三個(gè)關(guān)鍵方面:

          1. 使用SpecAugment將整個(gè)模型作為mask自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練

          SpecAugment是一種簡(jiǎn)單的語(yǔ)音識(shí)別數(shù)據(jù)增強(qiáng)方法,可在輸入音頻(而非原始音頻本身)的對(duì)數(shù)梅爾頻譜圖上進(jìn)行作,從而有效提高編碼器的泛化能力。

          2. 基于MUSE的無(wú)監(jiān)督嵌入映射

          多語(yǔ)言無(wú)監(jiān)督嵌入是在未配對(duì)的語(yǔ)言上進(jìn)行訓(xùn)練的,可以讓模型學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言之間共享的嵌入空間。

          3. 基于反向翻譯的重構(gòu)損失

          這種方法可以完全采用無(wú)監(jiān)督的方式,來(lái)訓(xùn)練編碼器-解碼器S2ST模型。

          效果展示(西班牙語(yǔ)-英語(yǔ))

          輸入

          CommonVoice11?Input,新智元,5秒

          CommonVoice11?Synthesized?Input,新智元,2秒

          Conversational?Input,新智元,2秒

          TTS合成

          CommonVoice11?TTS,新智元,4秒

          CommonVoice11?Synthesized?TTS,新智元,2秒

          Conversational?TTS,新智元,1秒

          Translatotron 3

          CommonVoice11?Translation?3,新智元,4秒

          CommonVoice11?Synthesized?Translation?3,新智元,2秒

          Conversational?Translation?3,新智元,1秒

          結(jié)構(gòu)

          Translatotron 3采用共享編碼器對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行編碼。其中,解碼器由語(yǔ)言解碼器、聲音合成器(負(fù)責(zé)翻譯語(yǔ)音的聲音生成)和單一注意力模塊組成。

          相比于上一代Translatotron 2,Translatotron 3配備有兩個(gè)解碼器,一個(gè)用于源語(yǔ)言,另一個(gè)用于目標(biāo)語(yǔ)言。

          在訓(xùn)練過(guò)程中,研究人員使用單語(yǔ)語(yǔ)音-文本數(shù)據(jù)集(這些數(shù)據(jù)由語(yǔ)音-文本對(duì)組成;并且沒(méi)有進(jìn)行翻譯)。

          編碼器

          編碼器的輸出分為兩部分:第一部分包含語(yǔ)義信息,第二部分包含聲學(xué)信息。

          其中,前半部分的輸出被訓(xùn)練成輸入語(yǔ)音頻譜圖文本的MUSE嵌入。后半部分在沒(méi)有MUSE損失的情況下進(jìn)行更新。

          值得注意的是,源語(yǔ)言和目標(biāo)語(yǔ)言共享同一個(gè)編碼器。

          基于MUSE嵌入的多語(yǔ)言性質(zhì),編碼器能夠?qū)W習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言的多語(yǔ)言嵌入空間。

          這樣一來(lái),編碼器就能將兩種語(yǔ)言的語(yǔ)音編碼到一個(gè)共同的嵌入空間中,而不是為每種語(yǔ)言保留一個(gè)單獨(dú)的嵌入空間,從而更高效、更有效地對(duì)輸入進(jìn)行編碼。

          解碼器

          解碼器由三個(gè)不同的部分組成,即語(yǔ)言解碼器、聲音合成器和注意力模塊。

          為了有效處理源語(yǔ)言和目標(biāo)語(yǔ)言的不同屬性,Translatotron 3配備有兩個(gè)獨(dú)立的解碼器,分別用于源語(yǔ)言和目標(biāo)語(yǔ)言。

          訓(xùn)練

          訓(xùn)練由兩個(gè)階段組成:(1)自動(dòng)編碼與重構(gòu);(2)反向翻譯。

          第一個(gè)階段中,使用MUSE損失和重構(gòu)損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而將輸入內(nèi)容自動(dòng)編碼到多語(yǔ)言嵌入空間,確保網(wǎng)絡(luò)生成有意義的多語(yǔ)言表征。

          在第二階段中,利用反向翻譯損失進(jìn)一步訓(xùn)練網(wǎng)絡(luò)翻譯輸入頻譜圖。為了減輕災(zāi)難性遺忘的問(wèn)題,并確保潛空間是多語(yǔ)言的,此階段依然采用MUSE損失和重構(gòu)損失。

          為了確保編碼器學(xué)習(xí)輸入的有意義屬性,而不是簡(jiǎn)單地重構(gòu)輸入,研究人員在兩個(gè)階段都對(duì)編碼器輸入應(yīng)用了 SpecAugment。事實(shí)證明,通過(guò)增強(qiáng)輸入數(shù)據(jù),可以有效提高編碼器的泛化能力。

          - MUSE損失:MUSE損失衡量的是輸入頻譜圖的多語(yǔ)言嵌入與反向翻譯頻譜圖的多語(yǔ)言嵌入之間的相似性。

          - 重構(gòu)損失:?重構(gòu)損失衡量的是輸入頻譜圖與反向翻譯頻譜圖之間的相似度。

          性能

          評(píng)估中包括Common Voice 11數(shù)據(jù)集,以及從對(duì)話和Common Voice 11數(shù)據(jù)集衍生出的兩個(gè)合成數(shù)據(jù)集。

          其中,翻譯質(zhì)量是通過(guò)翻譯語(yǔ)音的ASR(自動(dòng)語(yǔ)音識(shí)別)轉(zhuǎn)錄的BLEU(越高越好)與相應(yīng)的參考翻譯文本進(jìn)行比較來(lái)衡量的。而語(yǔ)音質(zhì)量則通過(guò)MOS分?jǐn)?shù)來(lái)衡量(越高越好)。此外,說(shuō)話人相似度是通過(guò)平均余弦相似度來(lái)衡量的(越高越好)。

          由于Translatotron 3是一種無(wú)監(jiān)督方法,因此研究人員使用了由ASR、無(wú)監(jiān)督機(jī)器翻譯(UMT)和 TTS(文本到語(yǔ)音)組合而成的級(jí)聯(lián)S2ST系統(tǒng)作為基準(zhǔn)。

          結(jié)果顯示,Translatotron 3在翻譯質(zhì)量、說(shuō)話者相似性和語(yǔ)音質(zhì)量等各方面的表現(xiàn)都遠(yuǎn)遠(yuǎn)優(yōu)于基線,在會(huì)話語(yǔ)料庫(kù)中的表現(xiàn)尤為突出。

          此外,Translatotron 3實(shí)實(shí)現(xiàn)了與真實(shí)音頻樣本相似的語(yǔ)音自然度(以MOS衡量,越高越好)。



          【本文地址】

          公司簡(jiǎn)介

          聯(lián)系我們

          今日新聞

          推薦新聞

          專題文章
            CopyRight 2018-2019 實(shí)驗(yàn)室設(shè)備網(wǎng) 版權(quán)所有
            黄色免费网站在线看,韩国精品在线观看,韩国美女一区二区,99国产热 扶风县| 珲春市| 洪洞县| 诏安县| 淮安市| 延安市| 上饶县| 贵德县| 柯坪县| 天全县| 开原市| 汉川市| 神农架林区| 津市市| 龙川县| 阳江市| 孝昌县| 和顺县| 宝丰县| 凤台县| 鄂托克旗| 土默特左旗| 汤原县| 温泉县| 自贡市| 甘南县| 赤水市| 繁峙县| 奉新县| 兴义市| 陇南市| 怀远县| 罗源县| 十堰市| 江口县| 綦江县| 报价| 峡江县| 沅江市| 潍坊市| 阜阳市| http://444 http://444 http://444 http://444 http://444 http://444