當(dāng)前位置：時(shí)代焦點(diǎn)網(wǎng) -> 財(cái)經(jīng)

能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別

發(fā)布時(shí)間：2022-09-24 16:52 來(lái)源：IT之家閱讀量：19760

這里的語(yǔ)音識(shí)別系統(tǒng)接近人類水平了嗎。

沒(méi)錯(cuò)，OpenAI新開(kāi)發(fā)了一個(gè)新的語(yǔ)音識(shí)別系統(tǒng)，叫做Whisper，據(jù)說(shuō)在英語(yǔ)語(yǔ)音識(shí)別上有接近人類水平的魯棒性和準(zhǔn)確率！

不僅如此，不同口音和專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的！

一經(jīng)發(fā)布，在推特上獲得了4800+贊和1000+轉(zhuǎn)發(fā)。

網(wǎng)民們對(duì)其意想不到的強(qiáng)大功能表示驚訝。

不僅是英語(yǔ)，還有法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了發(fā)音測(cè)試，得到的文字與原文幾乎一致

OpenAI聯(lián)合創(chuàng)始人amp首席科學(xué)家伊利亞·蘇茨基弗說(shuō):

最后，一個(gè)可靠的語(yǔ)音識(shí)別系統(tǒng)可以理解我的口音。

前特斯拉人工智能總監(jiān)Andrej Karpathy甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI正處于最佳狀態(tài)。

事不宜遲，我們來(lái)看看這個(gè)好評(píng)如潮的語(yǔ)音系統(tǒng)到底是怎么回事。

接近人類水平的語(yǔ)音識(shí)別系統(tǒng)

首先，Whisper最大的特點(diǎn)是它使用的超大訓(xùn)練集:

它使用從互聯(lián)網(wǎng)收集的680，000小時(shí)的多語(yǔ)言和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。

這就導(dǎo)致了數(shù)據(jù)集的多樣性，涵蓋了很多不同的環(huán)境，不同的記錄設(shè)備，不同的語(yǔ)言。

具體來(lái)說(shuō)，65%是英語(yǔ)音頻和匹配的英語(yǔ)文本，大約18% 是非英語(yǔ)音頻和英語(yǔ)文本，最后17% 是非英語(yǔ)音頻和相應(yīng)的文本。

其中，非英語(yǔ)部分包含98種不同的語(yǔ)言。

可是，盡管音頻質(zhì)量的多樣性有助于提高訓(xùn)練模型的魯棒性，但轉(zhuǎn)錄文本質(zhì)量的多樣性并不同樣有益。

初步審查表明，原始數(shù)據(jù)集中存在大量由現(xiàn)有自動(dòng)語(yǔ)音識(shí)別系統(tǒng)生成的不合格的轉(zhuǎn)錄本。

可是，以前的研究表明，在人和機(jī)器生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練會(huì)顯著損害翻譯系統(tǒng)的性能。

為了解決這個(gè)問(wèn)題，研究小組開(kāi)發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。

可是，值得一提的是，沒(méi)有口語(yǔ)內(nèi)容的片段將被留下作為用于語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。

其次，Whisper架構(gòu)是一種簡(jiǎn)單的端到端方法，具體來(lái)說(shuō)就是Transformer的編解碼格式。

將輸入的音頻分成30秒的片段，然后轉(zhuǎn)換成log—Mel聲譜圖，再傳輸?shù)骄幋a器。

解碼器經(jīng)過(guò)訓(xùn)練，可以預(yù)測(cè)相應(yīng)的文本標(biāo)題，并混合特殊標(biāo)簽，以指示單個(gè)模型執(zhí)行語(yǔ)言識(shí)別，多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。

除此之外，研究人員還為Whisper設(shè)置了五種不同的模型下面是每個(gè)型號(hào)大概的內(nèi)存需求和相對(duì)速度，用戶可以自行選擇

但需要注意的是，只有大號(hào)型號(hào)支持多種語(yǔ)言，前四款只支持英語(yǔ)。

不過(guò)不用擔(dān)心，相比其他機(jī)型，英文語(yǔ)音識(shí)別是Whisper的核心競(jìng)爭(zhēng)力。

實(shí)驗(yàn)結(jié)果表明，Whisper在Librispeech測(cè)試—clean測(cè)試中的錯(cuò)誤率為2.7%。

雖然這個(gè)數(shù)值與Wav2vec 2.0相同，但Whisper在零樣本性能上顯然更加穩(wěn)健，平均誤差降低了55%。

即使零樣本耳語(yǔ)模型也縮小了與人類魯棒性的差距。

可以看出，與人類ALEC相比，LibriSpeech模型的錯(cuò)誤率大約是人類的兩倍，而Whisper模型的穩(wěn)健邊界包含Alec的95%置信區(qū)間。

研究團(tuán)隊(duì)

Whisper的研究團(tuán)隊(duì)來(lái)自O(shè)penAI，有兩位合著者:亞歷克·拉德福德和瓊·金旭。

OpenAI的機(jī)器學(xué)習(xí)研究員亞歷克·拉德福德是indico.io的聯(lián)合創(chuàng)始人

喬恩·金旭在紐約大學(xué)獲得了音樂(lè)技術(shù)博士學(xué)位，他的研究興趣包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解，目前是OpenAI的研究員。

值得一提的是，研究團(tuán)隊(duì)指出，雖然Whisper目前沒(méi)有實(shí)時(shí)功能，但其運(yùn)行速度和內(nèi)存大小表明，在此基礎(chǔ)上構(gòu)建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性將允許開(kāi)發(fā)人員為更廣泛的應(yīng)用程序添加語(yǔ)音接口。

文末附有論文和GitHub鏈接，感興趣的朋友可以自己拿~

紙質(zhì)鏈接:

GitHub鏈接:

參考鏈接:

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn)，請(qǐng)與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別

最新文章

熱門文章