天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

時代焦點網(wǎng) - 專業(yè)財經(jīng)新聞門戶

442個作者,100頁論文一半都是參考文獻,谷歌耗時2年發(fā)布開源大模型新

發(fā)布時間:2022-06-11 13:26   來源:IT之家   閱讀量:19916   

來自132個機構(gòu)的研究人員花了兩年時間提出了一個新的基準大工作臺,一個大語言模型在此基礎上,對OpenAI的GPT模型和Google—Internal Dense Transformer架構(gòu)進行了評測,模型規(guī)模為6個數(shù)量級

最終的結(jié)果表明,雖然模型的性能伴隨著規(guī)模的擴大而提高,但與人類的性能仍相差甚遠。

對于這部作品,杰夫·迪恩轉(zhuǎn)發(fā)了一個贊:很棒的作品。

大語言模型的新基準

萊康在這篇論文里說了什么。

伴隨著規(guī)模的擴大,模型的性能和質(zhì)量都得到了一定程度的提升,可能會有一些革命性的影響,但這些性能之前并沒有很好的描述。

現(xiàn)有的一些基準存在一定的局限性,評測范圍較窄,性能評分很快達到飽和。

比如強力膠,在引入這一基準后的18個月內(nèi),模型取得了超越人類水平的性能。

基于這樣的背景,BIG—bench誕生了。

目前由204項任務組成,涵蓋語言學,兒童發(fā)展,數(shù)學,常識推理,生物,物理,社會偏見,軟件開發(fā)等問題。

此外,還有一個由人類專家組成的陪審團,他們也執(zhí)行所有任務來提供基線水平。

為了方便更多機構(gòu)使用,研究人員還給出BIG—bench Lite,一個小但有代表性的任務子集,便于更快的評估。

以及實現(xiàn)benchmark API的開源代碼,它支持對公開可用模型的任務評估和新任務的輕量級創(chuàng)建。

最終評估結(jié)果表明,規(guī)??缭搅肆鶄€數(shù)量級,且伴隨著模型規(guī)模的擴大和訓練樣本數(shù)量的增加,大平臺上的整體性能有所提高。

但與人類基線水平相比,性能還是比較差的。

在某些特定任務上,模型的性能會伴隨著規(guī)模的增大而穩(wěn)步提升但有時候,會有特定規(guī)模的突然突破表現(xiàn)

此外,它還可以評估模型的社會偏差。

此外,他們意外地發(fā)現(xiàn),模特還可以獲得一些隱藏技能比如象棋里怎么按規(guī)則走

剩下的,有50頁參考文獻。

好了,有興趣的朋友可以戳下面鏈接到康康論文。

紙質(zhì)鏈接:

GitHub鏈接:

聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。