442個作者，100頁論文一半都是參考文獻，谷歌耗時2年發(fā)布開源大模型新

發(fā)布時間：2022-06-11 13:26 來源：IT之家閱讀量：19916

來自132個機構(gòu)的研究人員花了兩年時間提出了一個新的基準大工作臺，一個大語言模型在此基礎上，對OpenAI的GPT模型和Google—Internal Dense Transformer架構(gòu)進行了評測，模型規(guī)模為6個數(shù)量級

最終的結(jié)果表明，雖然模型的性能伴隨著規(guī)模的擴大而提高，但與人類的性能仍相差甚遠。

對于這部作品，杰夫·迪恩轉(zhuǎn)發(fā)了一個贊:很棒的作品。

大語言模型的新基準

萊康在這篇論文里說了什么。

伴隨著規(guī)模的擴大，模型的性能和質(zhì)量都得到了一定程度的提升，可能會有一些革命性的影響，但這些性能之前并沒有很好的描述。

現(xiàn)有的一些基準存在一定的局限性，評測范圍較窄，性能評分很快達到飽和。

比如強力膠，在引入這一基準后的18個月內(nèi)，模型取得了超越人類水平的性能。

基于這樣的背景，BIG—bench誕生了。

目前由204項任務組成，涵蓋語言學，兒童發(fā)展，數(shù)學，常識推理，生物，物理，社會偏見，軟件開發(fā)等問題。

此外，還有一個由人類專家組成的陪審團，他們也執(zhí)行所有任務來提供基線水平。

為了方便更多機構(gòu)使用，研究人員還給出BIG—bench Lite，一個小但有代表性的任務子集，便于更快的評估。

以及實現(xiàn)benchmark API的開源代碼，它支持對公開可用模型的任務評估和新任務的輕量級創(chuàng)建。

最終評估結(jié)果表明，規(guī)?？缭搅肆鶄€數(shù)量級，且伴隨著模型規(guī)模的擴大和訓練樣本數(shù)量的增加，大平臺上的整體性能有所提高。

但與人類基線水平相比，性能還是比較差的。

在某些特定任務上，模型的性能會伴隨著規(guī)模的增大而穩(wěn)步提升但有時候，會有特定規(guī)模的突然突破表現(xiàn)

此外，它還可以評估模型的社會偏差。

此外，他們意外地發(fā)現(xiàn)，模特還可以獲得一些隱藏技能比如象棋里怎么按規(guī)則走

剩下的，有50頁參考文獻。

好了，有興趣的朋友可以戳下面鏈接到康康論文。

紙質(zhì)鏈接:

GitHub鏈接:

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問，請與有關方核實，文章觀點非本網(wǎng)觀點，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm