比MP3小10倍,Meta開(kāi)源全新音頻壓縮技術(shù)EnCodec
Meta在博客中發(fā)表了一項(xiàng)新的開(kāi)源音頻壓縮技術(shù)EnCodec,聲稱壓縮后的文件大小比MP3格式小10倍。
據(jù)報(bào)道,Meta的基礎(chǔ)人工智能研究團(tuán)隊(duì)在AI驅(qū)動(dòng)的音頻超壓縮領(lǐng)域取得了成功,構(gòu)建了一個(gè)三部分系統(tǒng),并對(duì)其進(jìn)行端到端的訓(xùn)練,將音頻數(shù)據(jù)壓縮到目標(biāo)大小,然后使用神經(jīng)網(wǎng)絡(luò)對(duì)這些數(shù)據(jù)進(jìn)行解碼。
與64 kbps的MP3相比,Meta的新技術(shù)EnCodec在不損失質(zhì)量的情況下,實(shí)現(xiàn)了10倍左右的壓縮率。
EnCodec的三個(gè)部分包括:
編碼器:獲取未壓縮的數(shù)據(jù),并將其轉(zhuǎn)換為更高維度和更低幀率的表示形式。
量化器:將此表示壓縮到目標(biāo)大小,并通過(guò)將量化器訓(xùn)練到所需大小來(lái)重建原始信號(hào),同時(shí)保留最重要的信息這種壓縮后的表示存儲(chǔ)在磁盤(pán)上或通過(guò)網(wǎng)絡(luò)發(fā)送,相當(dāng)于電腦上的. mp3文件
解碼器:將壓縮后的信號(hào)盡可能地轉(zhuǎn)換回與原始信號(hào)相似的波形有損壓縮的關(guān)鍵是識(shí)別人類無(wú)法感知的變化,因?yàn)樵诘痛a率下不可能實(shí)現(xiàn)完美重建為此,EnCodec使用鑒別器來(lái)提高生成樣本的感知質(zhì)量,并創(chuàng)建了一個(gè)類似貓捉老鼠的游戲,其中鑒別器的工作是區(qū)分真實(shí)樣本和重構(gòu)樣本壓縮模型試圖通過(guò)推動(dòng)重建樣本在感知上與原始樣本更相似來(lái)欺騙鑒別器
本站了解到,Meta表示該技術(shù)尚未覆蓋視頻,但目前正在計(jì)劃中它的目標(biāo)是改善視頻會(huì)議,流媒體電影和在VR中與朋友玩游戲的音頻體驗(yàn)
論文地址:點(diǎn)擊此處查看。
GitHub開(kāi)源頁(yè)面:點(diǎn)擊此處查看
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
最新文章
- 期市早盤(pán):主力合約大面積飄紅,低硫燃料油
- 巴菲特還在虧!伯克希爾三季度虧損收窄至近
- 聚焦進(jìn)博會(huì)解鎖更多前沿生命科技,雅培攜多
- 萊克攜手迪麗熱巴探索家的潔凈新場(chǎng)景
- 新華財(cái)經(jīng)·指數(shù)新華·山東港口鐵礦石庫(kù)存及
- 重點(diǎn)項(xiàng)目加快推進(jìn)農(nóng)業(yè)農(nóng)村投資動(dòng)能強(qiáng)勁
- 第25屆上海國(guó)際電影節(jié)順延至2023年舉
- 截至15時(shí)北京今日零新增,近日3例社會(huì)面
- 第十五屆中國(guó)(嵊州)電機(jī)?廚具展覽會(huì)即將
- 川陜革命老區(qū)打造地域特色“亮麗名片”