442個作者,100頁論文一半都是參考文獻,谷歌耗時2年發(fā)布開源大模型新
來自132個機構(gòu)的研究人員花了兩年時間提出了一個新的基準大工作臺,一個大語言模型在此基礎上,對OpenAI的GPT模型和Google—Internal Dense Transformer架構(gòu)進行了評測,模型規(guī)模為6個數(shù)量級
最終的結(jié)果表明,雖然模型的性能伴隨著規(guī)模的擴大而提高,但與人類的性能仍相差甚遠。
對于這部作品,杰夫·迪恩轉(zhuǎn)發(fā)了一個贊:很棒的作品。
大語言模型的新基準
萊康在這篇論文里說了什么。
伴隨著規(guī)模的擴大,模型的性能和質(zhì)量都得到了一定程度的提升,可能會有一些革命性的影響,但這些性能之前并沒有很好的描述。
現(xiàn)有的一些基準存在一定的局限性,評測范圍較窄,性能評分很快達到飽和。
比如強力膠,在引入這一基準后的18個月內(nèi),模型取得了超越人類水平的性能。
基于這樣的背景,BIG—bench誕生了。
目前由204項任務組成,涵蓋語言學,兒童發(fā)展,數(shù)學,常識推理,生物,物理,社會偏見,軟件開發(fā)等問題。
此外,還有一個由人類專家組成的陪審團,他們也執(zhí)行所有任務來提供基線水平。
為了方便更多機構(gòu)使用,研究人員還給出BIG—bench Lite,一個小但有代表性的任務子集,便于更快的評估。
以及實現(xiàn)benchmark API的開源代碼,它支持對公開可用模型的任務評估和新任務的輕量級創(chuàng)建。
最終評估結(jié)果表明,規(guī)??缭搅肆鶄€數(shù)量級,且伴隨著模型規(guī)模的擴大和訓練樣本數(shù)量的增加,大平臺上的整體性能有所提高。
但與人類基線水平相比,性能還是比較差的。
在某些特定任務上,模型的性能會伴隨著規(guī)模的增大而穩(wěn)步提升但有時候,會有特定規(guī)模的突然突破表現(xiàn)
此外,它還可以評估模型的社會偏差。
此外,他們意外地發(fā)現(xiàn),模特還可以獲得一些隱藏技能比如象棋里怎么按規(guī)則走
剩下的,有50頁參考文獻。
好了,有興趣的朋友可以戳下面鏈接到康康論文。
紙質(zhì)鏈接:
GitHub鏈接:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。