天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

時(shí)代焦點(diǎn)網(wǎng) - 專業(yè)財(cái)經(jīng)新聞門戶

能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別

發(fā)布時(shí)間:2022-09-24 16:52   來(lái)源:IT之家   閱讀量:19760   

這里的語(yǔ)音識(shí)別系統(tǒng)接近人類水平了嗎。

沒(méi)錯(cuò),OpenAI新開(kāi)發(fā)了一個(gè)新的語(yǔ)音識(shí)別系統(tǒng),叫做Whisper,據(jù)說(shuō)在英語(yǔ)語(yǔ)音識(shí)別上有接近人類水平的魯棒性和準(zhǔn)確率!

不僅如此,不同口音和專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的!

一經(jīng)發(fā)布,在推特上獲得了4800+贊和1000+轉(zhuǎn)發(fā)。

網(wǎng)民們對(duì)其意想不到的強(qiáng)大功能表示驚訝。

不僅是英語(yǔ),還有法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了發(fā)音測(cè)試,得到的文字與原文幾乎一致

OpenAI聯(lián)合創(chuàng)始人amp首席科學(xué)家伊利亞·蘇茨基弗說(shuō):

最后,一個(gè)可靠的語(yǔ)音識(shí)別系統(tǒng)可以理解我的口音。

前特斯拉人工智能總監(jiān)Andrej Karpathy甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI正處于最佳狀態(tài)。

事不宜遲,我們來(lái)看看這個(gè)好評(píng)如潮的語(yǔ)音系統(tǒng)到底是怎么回事。

接近人類水平的語(yǔ)音識(shí)別系統(tǒng)

首先,Whisper最大的特點(diǎn)是它使用的超大訓(xùn)練集:

它使用從互聯(lián)網(wǎng)收集的680,000小時(shí)的多語(yǔ)言和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。

這就導(dǎo)致了數(shù)據(jù)集的多樣性,涵蓋了很多不同的環(huán)境,不同的記錄設(shè)備,不同的語(yǔ)言。

具體來(lái)說(shuō),65%是英語(yǔ)音頻和匹配的英語(yǔ)文本,大約18% 是非英語(yǔ)音頻和英語(yǔ)文本,最后17% 是非英語(yǔ)音頻和相應(yīng)的文本。

其中,非英語(yǔ)部分包含98種不同的語(yǔ)言。

可是,盡管音頻質(zhì)量的多樣性有助于提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不同樣有益。

初步審查表明,原始數(shù)據(jù)集中存在大量由現(xiàn)有自動(dòng)語(yǔ)音識(shí)別系統(tǒng)生成的不合格的轉(zhuǎn)錄本。

可是,以前的研究表明,在人和機(jī)器生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練會(huì)顯著損害翻譯系統(tǒng)的性能。

為了解決這個(gè)問(wèn)題,研究小組開(kāi)發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。

可是,值得一提的是,沒(méi)有口語(yǔ)內(nèi)容的片段將被留下作為用于語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。

其次,Whisper架構(gòu)是一種簡(jiǎn)單的端到端方法,具體來(lái)說(shuō)就是Transformer的編解碼格式。

將輸入的音頻分成30秒的片段,然后轉(zhuǎn)換成log—Mel聲譜圖,再傳輸?shù)骄幋a器。

解碼器經(jīng)過(guò)訓(xùn)練,可以預(yù)測(cè)相應(yīng)的文本標(biāo)題,并混合特殊標(biāo)簽,以指示單個(gè)模型執(zhí)行語(yǔ)言識(shí)別,多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。

除此之外,研究人員還為Whisper設(shè)置了五種不同的模型下面是每個(gè)型號(hào)大概的內(nèi)存需求和相對(duì)速度,用戶可以自行選擇

但需要注意的是,只有大號(hào)型號(hào)支持多種語(yǔ)言,前四款只支持英語(yǔ)。

不過(guò)不用擔(dān)心,相比其他機(jī)型,英文語(yǔ)音識(shí)別是Whisper的核心競(jìng)爭(zhēng)力。

實(shí)驗(yàn)結(jié)果表明,Whisper在Librispeech測(cè)試—clean測(cè)試中的錯(cuò)誤率為2.7%。

雖然這個(gè)數(shù)值與Wav2vec 2.0相同,但Whisper在零樣本性能上顯然更加穩(wěn)健,平均誤差降低了55%。

即使零樣本耳語(yǔ)模型也縮小了與人類魯棒性的差距。

可以看出,與人類ALEC相比,LibriSpeech模型的錯(cuò)誤率大約是人類的兩倍,而Whisper模型的穩(wěn)健邊界包含Alec的95%置信區(qū)間。

研究團(tuán)隊(duì)

Whisper的研究團(tuán)隊(duì)來(lái)自O(shè)penAI,有兩位合著者:亞歷克·拉德福德和瓊·金旭。

OpenAI的機(jī)器學(xué)習(xí)研究員亞歷克·拉德福德是indico.io的聯(lián)合創(chuàng)始人

喬恩·金旭在紐約大學(xué)獲得了音樂(lè)技術(shù)博士學(xué)位,他的研究興趣包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解,目前是OpenAI的研究員。

值得一提的是,研究團(tuán)隊(duì)指出,雖然Whisper目前沒(méi)有實(shí)時(shí)功能,但其運(yùn)行速度和內(nèi)存大小表明,在此基礎(chǔ)上構(gòu)建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性將允許開(kāi)發(fā)人員為更廣泛的應(yīng)用程序添加語(yǔ)音接口。

文末附有論文和GitHub鏈接,感興趣的朋友可以自己拿~

紙質(zhì)鏈接:

GitHub鏈接:

參考鏈接:

聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。