并行翻譯的技術難點是如何組成連貫語句
,在WMT2021國際機器翻譯大賽上,字節(jié)跳動火山翻譯團隊以并行翻譯系統(tǒng)參賽,獲得德語到英語方向機器翻譯比賽自動評估第一名并行翻譯在國際大賽首次亮相,就成功擊敗了從左向右逐詞翻譯的自回歸模型技術,打破后者在機器翻譯領域的絕對統(tǒng)治地位

根據(jù)消息顯示,WMT2021是由國際計算語言學協(xié)會ACL舉辦的世界頂級機器翻譯比賽,德英語向是該賽事競爭最激烈的大語種項目之一。
火山翻譯團隊負責人介紹說,自回歸模型更接近人類閱讀習慣,逐詞按順序生成翻譯,每一個輸出的詞都依賴于之前的詞,當輸出文本較長或者模型比較復雜時,機器翻譯的速度很慢,并行翻譯則是由機器同步輸出所有的詞,可以充分利用并行計算,將翻譯速度提高數(shù)十倍句子越長,速度提升越明顯
并行翻譯的技術難點是如何組成連貫語句對此,火山翻譯團隊采用了一項創(chuàng)新的漸進學習方式,由簡單到復雜,由片段到整句訓練并行翻譯模型在保持極高翻譯速度的同時,并行翻譯的質量顯著提升
火山翻譯團隊負責人坦言,在訓練數(shù)據(jù)量小的場景下,并行翻譯的質量相比傳統(tǒng)技術處于劣勢但是當訓練數(shù)據(jù)規(guī)模變大后,并行翻譯會逐漸縮小差距,甚至反超傳統(tǒng)技術目前并行翻譯技術已應用在火山翻譯產(chǎn)品中,用以支持字節(jié)跳動的部分業(yè)務
在去年的WMT2020比賽中,火山翻譯獲得中英,德英,德法等5個語向翻譯冠軍,今年以全新技術奪魁更是一次重要的突破據(jù)介紹,火山翻譯已支持50多個語種,近3000個語向的翻譯,不僅應用在飛書,今日頭條等字節(jié)跳動旗下產(chǎn)品,也通過火山引擎向企業(yè)客戶提供技術服務
聲明:本網(wǎng)轉發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。