能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別
這里的語(yǔ)音識(shí)別系統(tǒng)接近人類水平了嗎。
沒(méi)錯(cuò),OpenAI新開(kāi)發(fā)了一個(gè)新的語(yǔ)音識(shí)別系統(tǒng),叫做Whisper,據(jù)說(shuō)在英語(yǔ)語(yǔ)音識(shí)別上有接近人類水平的魯棒性和準(zhǔn)確率!
不僅如此,不同口音和專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的!
一經(jīng)發(fā)布,在推特上獲得了4800+贊和1000+轉(zhuǎn)發(fā)。
網(wǎng)民們對(duì)其意想不到的強(qiáng)大功能表示驚訝。
不僅是英語(yǔ),還有法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了發(fā)音測(cè)試,得到的文字與原文幾乎一致
OpenAI聯(lián)合創(chuàng)始人amp首席科學(xué)家伊利亞·蘇茨基弗說(shuō):
最后,一個(gè)可靠的語(yǔ)音識(shí)別系統(tǒng)可以理解我的口音。
前特斯拉人工智能總監(jiān)Andrej Karpathy甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI正處于最佳狀態(tài)。
事不宜遲,我們來(lái)看看這個(gè)好評(píng)如潮的語(yǔ)音系統(tǒng)到底是怎么回事。
接近人類水平的語(yǔ)音識(shí)別系統(tǒng)
首先,Whisper最大的特點(diǎn)是它使用的超大訓(xùn)練集:
它使用從互聯(lián)網(wǎng)收集的680,000小時(shí)的多語(yǔ)言和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。
這就導(dǎo)致了數(shù)據(jù)集的多樣性,涵蓋了很多不同的環(huán)境,不同的記錄設(shè)備,不同的語(yǔ)言。
具體來(lái)說(shuō),65%是英語(yǔ)音頻和匹配的英語(yǔ)文本,大約18% 是非英語(yǔ)音頻和英語(yǔ)文本,最后17% 是非英語(yǔ)音頻和相應(yīng)的文本。
其中,非英語(yǔ)部分包含98種不同的語(yǔ)言。
可是,盡管音頻質(zhì)量的多樣性有助于提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不同樣有益。
初步審查表明,原始數(shù)據(jù)集中存在大量由現(xiàn)有自動(dòng)語(yǔ)音識(shí)別系統(tǒng)生成的不合格的轉(zhuǎn)錄本。
可是,以前的研究表明,在人和機(jī)器生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練會(huì)顯著損害翻譯系統(tǒng)的性能。
為了解決這個(gè)問(wèn)題,研究小組開(kāi)發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。
可是,值得一提的是,沒(méi)有口語(yǔ)內(nèi)容的片段將被留下作為用于語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。
其次,Whisper架構(gòu)是一種簡(jiǎn)單的端到端方法,具體來(lái)說(shuō)就是Transformer的編解碼格式。
將輸入的音頻分成30秒的片段,然后轉(zhuǎn)換成log—Mel聲譜圖,再傳輸?shù)骄幋a器。
解碼器經(jīng)過(guò)訓(xùn)練,可以預(yù)測(cè)相應(yīng)的文本標(biāo)題,并混合特殊標(biāo)簽,以指示單個(gè)模型執(zhí)行語(yǔ)言識(shí)別,多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。
除此之外,研究人員還為Whisper設(shè)置了五種不同的模型下面是每個(gè)型號(hào)大概的內(nèi)存需求和相對(duì)速度,用戶可以自行選擇
但需要注意的是,只有大號(hào)型號(hào)支持多種語(yǔ)言,前四款只支持英語(yǔ)。
不過(guò)不用擔(dān)心,相比其他機(jī)型,英文語(yǔ)音識(shí)別是Whisper的核心競(jìng)爭(zhēng)力。
實(shí)驗(yàn)結(jié)果表明,Whisper在Librispeech測(cè)試—clean測(cè)試中的錯(cuò)誤率為2.7%。
雖然這個(gè)數(shù)值與Wav2vec 2.0相同,但Whisper在零樣本性能上顯然更加穩(wěn)健,平均誤差降低了55%。
即使零樣本耳語(yǔ)模型也縮小了與人類魯棒性的差距。
可以看出,與人類ALEC相比,LibriSpeech模型的錯(cuò)誤率大約是人類的兩倍,而Whisper模型的穩(wěn)健邊界包含Alec的95%置信區(qū)間。
研究團(tuán)隊(duì)
Whisper的研究團(tuán)隊(duì)來(lái)自O(shè)penAI,有兩位合著者:亞歷克·拉德福德和瓊·金旭。
OpenAI的機(jī)器學(xué)習(xí)研究員亞歷克·拉德福德是indico.io的聯(lián)合創(chuàng)始人
喬恩·金旭在紐約大學(xué)獲得了音樂(lè)技術(shù)博士學(xué)位,他的研究興趣包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解,目前是OpenAI的研究員。
值得一提的是,研究團(tuán)隊(duì)指出,雖然Whisper目前沒(méi)有實(shí)時(shí)功能,但其運(yùn)行速度和內(nèi)存大小表明,在此基礎(chǔ)上構(gòu)建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。
他們希望Whisper的高精度和易用性將允許開(kāi)發(fā)人員為更廣泛的應(yīng)用程序添加語(yǔ)音接口。
文末附有論文和GitHub鏈接,感興趣的朋友可以自己拿~
紙質(zhì)鏈接:
GitHub鏈接:
參考鏈接:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
最新文章
- 汽車早報(bào)丨9月狹義乘用車零售預(yù)計(jì)195萬(wàn)
- 美年健康與人保健康簽署戰(zhàn)略合作協(xié)議
- 迎接RTX40顯卡:Thermaltak
- 美年健康肺結(jié)節(jié)全程化閉環(huán)管理創(chuàng)新產(chǎn)品“肺
- 工信部:上半年25個(gè)先進(jìn)制造業(yè)集群完成產(chǎn)
- PingPong通過(guò)數(shù)字技術(shù)應(yīng)用帶動(dòng)支付
- 這家A股公司兩任總經(jīng)理的天價(jià)離婚案:“分
- 北京第三輪土拍收金500億元平均溢價(jià)率超
- 400萬(wàn)臺(tái)備貨“瓜分”完畢!華為緊急增產(chǎn)
- 不懼新股破發(fā)潮!有新股被5家機(jī)構(gòu)包場(chǎng)買入
熱門文章
- 基于Win11底層開(kāi)發(fā)內(nèi)核,微軟Wind
- ICInsights:全球DRAM銷售額
- 成本4000賣1.5萬(wàn)?DR鉆戒引熱議背
- 數(shù)千億級(jí)醫(yī)療設(shè)備更新改造需求涌現(xiàn)“邁瑞們
- 新研究:汽車自動(dòng)緊急制動(dòng)系統(tǒng)AEB在正常
- 交易異動(dòng)!同興環(huán)保:連續(xù)兩個(gè)交易日內(nèi)收盤
- 無(wú)錫工行惠山支行走進(jìn)商超開(kāi)展金融知識(shí)普及
- 華林證券設(shè)立鄉(xiāng)村振興發(fā)展基金三大共創(chuàng)行動(dòng)
- 萬(wàn)馬科技:聘任朱正翔為公司副總經(jīng)理
- 為國(guó)貨品牌出海提供“端到端”物流服務(wù),菜