AI 競(jìng)技場(chǎng),歸根到底只是一門(mén)生意

    創(chuàng)投圈
    2025
    08/06
    20:34
    分享
    評(píng)論

    "XX 發(fā)布最強(qiáng)開(kāi)源大模型,多項(xiàng)基準(zhǔn)測(cè)試全面超越 XX 等閉源模型!"

    " 萬(wàn)億參數(shù)開(kāi)源模型 XX 強(qiáng)勢(shì)登頂全球開(kāi)源模型榜首!"

    " 國(guó)產(chǎn)之光!XX 模型在中文評(píng)測(cè)榜單拿下第一!"

    隨著 AI 時(shí)代的到來(lái),各位的朋友圈、微博等社交平臺(tái)是不是也常常被諸如此類(lèi)的新聞刷屏了?

    今天這個(gè)模型拿到了冠軍,明天那個(gè)模型變成了王者。評(píng)論區(qū)里有的人熱血沸騰,有的人一頭霧水。

    一個(gè)又一個(gè)的現(xiàn)實(shí)問(wèn)題擺在眼前:

    這些模型所謂的 " 登頂 " 比的是什么?誰(shuí)給它們?cè)u(píng)分,而評(píng)分的依據(jù)又是什么?為什么每個(gè)平臺(tái)的榜單座次都不一樣,到底誰(shuí)更權(quán)威?

    如果各位也產(chǎn)生了類(lèi)似的困惑,說(shuō)明各位已經(jīng)開(kāi)始從 " 看熱鬧 " 轉(zhuǎn)向 " 看門(mén)道 "。

    本文之中,我們便來(lái)拆解一下不同類(lèi)型 "AI 競(jìng)技場(chǎng) " ——也就是大語(yǔ)言模型排行榜——的 " 游戲規(guī)則 "。

    01 類(lèi)型一:客觀基準(zhǔn)測(cè)試(Benchmark),給 AI 準(zhǔn)備的 " 高考 "

    人類(lèi)社會(huì)中,高考分?jǐn)?shù)是決定學(xué)生大學(xué)檔次的最主要評(píng)判標(biāo)準(zhǔn)。

    同樣地,在 AI 領(lǐng)域,也有很多高度標(biāo)準(zhǔn)化的測(cè)試題,用來(lái)盡可能客觀地衡量 AI 模型在特定能力上的表現(xiàn)。

    因此,在這個(gè)大模型產(chǎn)品頻繁推陳出新的時(shí)代,各家廠商推出新模型后,第一件事就是拿到 " 高考 " 考場(chǎng)上跑個(gè)分,是騾子是馬,拉出來(lái)遛遛。

    Artificial Analysis 平臺(tái)提出了一項(xiàng)名為 "Artificial Analysis Intelligence Index(AAII)" 的綜合性評(píng)測(cè)基準(zhǔn),匯總了 7 個(gè)極為困難且專(zhuān)注于前沿能力的單項(xiàng)評(píng)測(cè)結(jié)果。

    類(lèi)似于股票價(jià)格指數(shù),AAII 能夠給出衡量 AI 智能水平的綜合分?jǐn)?shù),尤其專(zhuān)注于需要深度推理、專(zhuān)業(yè)知識(shí)和復(fù)雜問(wèn)題解決能力的任務(wù)。

    這 7 項(xiàng)評(píng)測(cè)覆蓋了被普遍視作衡量高級(jí)智能核心的三個(gè)領(lǐng)域:知識(shí)推理、數(shù)學(xué)和編程

    (1)知識(shí)與推理領(lǐng)域

    MMLU-Pro:

    全稱(chēng) Massive Multitask Language Understanding - Professional Level

    MMLU 的加強(qiáng)版。MMLU 涵蓋 57 個(gè)學(xué)科的知識(shí)問(wèn)答測(cè)試,而 MMLU-Pro 在此基礎(chǔ)上,通過(guò)更復(fù)雜的提問(wèn)方式和推理要求,進(jìn)一步增加難度以測(cè)試模型在專(zhuān)業(yè)領(lǐng)域的知識(shí)廣度和深度推理能力。

    GPQA Diamond:

    全稱(chēng) Graduate - Level Google - Proof Q&A - Diamond Set

    此測(cè)試機(jī)包含生物學(xué)、物理學(xué)和化學(xué)領(lǐng)域的專(zhuān)業(yè)問(wèn)題。與其名稱(chēng)對(duì)應(yīng),其設(shè)計(jì)初衷很直白:即使是相關(guān)領(lǐng)域的研究生,在允許使用 Google 搜索的情況下也很難在短時(shí)間內(nèi)找到答案。而 Diamond 正是其中難度最高的一個(gè)子集,需要 AI 具備較強(qiáng)的推理能力和問(wèn)題分解能力,而非簡(jiǎn)單的信息檢索。

    Humanity ’ s Last Exam:

    由 Scale AI 和 Center for AI Safety(CAIS)聯(lián)合發(fā)布的一項(xiàng)難度極高的基準(zhǔn)測(cè)試,涵蓋科學(xué)、技術(shù)、工程、數(shù)學(xué)甚至是人文藝術(shù)等多個(gè)領(lǐng)域。題目大多為開(kāi)放式,不僅需要 AI 進(jìn)行多個(gè)步驟的復(fù)雜推理,還需要 AI 發(fā)揮一定的創(chuàng)造性。這項(xiàng)測(cè)試能夠有效評(píng)估 AI 是否具備跨學(xué)科的綜合問(wèn)題解決能力。

    (2)編程領(lǐng)域

    LiveCodeBench:

    這是一項(xiàng)貼近現(xiàn)實(shí)的編程能力測(cè)試。與傳統(tǒng)的編程測(cè)試只關(guān)注代碼的正確性不同,AI 會(huì)被置于一個(gè) " 實(shí)時(shí) " 的編程環(huán)境中,并根據(jù)問(wèn)題描述和一組公開(kāi)的測(cè)試用例編寫(xiě)代碼,而代碼將會(huì)使用一組更復(fù)雜的隱藏測(cè)試用例運(yùn)行并評(píng)分。這項(xiàng)測(cè)試主要考驗(yàn) AI 編程是否具備較高的魯棒性以及處理邊界情況的能力。

    SciCode:

    這一項(xiàng)編程測(cè)試則更偏向于學(xué)術(shù)性,專(zhuān)注于科學(xué)計(jì)算和編程。AI 需要理解復(fù)雜的科學(xué)問(wèn)題并用代碼實(shí)現(xiàn)相應(yīng)的算法或模擬。除了考驗(yàn)編程技巧,還需要 AI 對(duì)科學(xué)原理具備一定深度的理解。

    (3)數(shù)學(xué)領(lǐng)域

    AIME:

    全稱(chēng) American Invitational Mathematics Examination

    美國(guó)高中生數(shù)學(xué)競(jìng)賽體系中的一環(huán),難度介于 AMC(美國(guó)數(shù)學(xué)競(jìng)賽)和 USAMO(美國(guó)數(shù)學(xué)奧林匹克)之間。其題目具備較高的挑戰(zhàn)性,需要 AI 具備創(chuàng)造性的解題思路和數(shù)學(xué)功底,能夠衡量 AI 在高級(jí)數(shù)學(xué)領(lǐng)域中的推理能力。

    MATH-500:

    從大型數(shù)學(xué)問(wèn)題數(shù)據(jù)集 "MATH" 中隨機(jī)抽取 500 道題構(gòu)成的測(cè)試,覆蓋從初中到高中競(jìng)賽水平的各類(lèi)數(shù)學(xué)題目,涵蓋代數(shù)、幾何和數(shù)論等領(lǐng)域。題目以 LaTeX 格式給出,模型不僅要給出答案,還需要有詳細(xì)的解題步驟,是評(píng)估 AI 形式化數(shù)學(xué)推理和解題能力的重要標(biāo)準(zhǔn)。

    圖:Artificial Analysis 的 AI 模型智能排行榜

    不過(guò),由于模型的用處不同,各大平臺(tái)并不會(huì)采用相同的測(cè)評(píng)標(biāo)準(zhǔn)。

    例如,司南(OpenCompass)的大語(yǔ)言模型榜單根據(jù)其自有的閉源評(píng)測(cè)數(shù)據(jù)集(CompassBench)進(jìn)行評(píng)測(cè),我們無(wú)法得知具體測(cè)試規(guī)則,但該團(tuán)隊(duì)面向社區(qū)提供了公開(kāi)的驗(yàn)證集,每隔 3 個(gè)月更新評(píng)測(cè)題目。

    圖:OpenCompass 大語(yǔ)言模型榜

    與此同時(shí),該網(wǎng)站也選取了一些合作伙伴的評(píng)測(cè)集,針對(duì) AI 模型的主流應(yīng)用領(lǐng)域進(jìn)行評(píng)測(cè)并發(fā)布了測(cè)試榜單:

    而 HuggingFace 也有類(lèi)似的開(kāi)源大語(yǔ)言模型榜單,測(cè)評(píng)標(biāo)準(zhǔn)中包含了前面提過(guò)的 MATH、GPQA 和 MMLU-Pro:

    圖:HuggingFace 上的開(kāi)源大語(yǔ)言模型排行榜

    在這個(gè)榜單中,還增加了一些測(cè)評(píng)標(biāo)準(zhǔn),并附有解釋?zhuān)?/p>

    IFEval:

    全稱(chēng) Instruction-Following Evaluation

    用于測(cè)評(píng)大語(yǔ)言模型遵循指令的能力,其重點(diǎn)在于格式化。這項(xiàng)測(cè)評(píng)不僅需要模型給出正確的回答,還注重于模型能否嚴(yán)格按照用戶(hù)給出的特定格式來(lái)輸出答案。

    BBH:

    全稱(chēng) Big Bench Hard

    從 Big Bench 基準(zhǔn)測(cè)試中篩選出的一部分較為困難的任務(wù),構(gòu)成了專(zhuān)門(mén)為大語(yǔ)言模型設(shè)計(jì)的高難度問(wèn)題集合。作為一張 " 綜合試卷 ",它包含多種類(lèi)型的難題,如語(yǔ)言理解、數(shù)學(xué)推理、常識(shí)和世界知識(shí)等方面。不過(guò),這份試卷上只有選擇題,評(píng)分標(biāo)準(zhǔn)為準(zhǔn)確率。

    MuSR:

    全稱(chēng) Multistep Soft Reasoning

    用于測(cè)試 AI 模型在長(zhǎng)篇文本中進(jìn)行復(fù)雜、多步驟推理能力的評(píng)測(cè)集。其測(cè)試過(guò)程類(lèi)似于人類(lèi)的 " 閱讀理解 ",在閱讀文章后,需要將散落在不同地方的線(xiàn)索和信息點(diǎn)串聯(lián)起來(lái)才能得到最終結(jié)論,即 " 多步驟 " 和 " 軟推理 "。此測(cè)評(píng)同樣采用選擇題的形式,以準(zhǔn)確率為評(píng)分標(biāo)準(zhǔn)。

    CO2 Cost:

    這是最有趣的一項(xiàng)指標(biāo),因?yàn)榇蟛糠?LLM 榜單上都不會(huì)標(biāo)注二氧化碳排放量。它只代表了模型的環(huán)保性和能源效率,而無(wú)法反映其聰明程度和性能。

    同樣地,在 HuggingFace 上搜索 LLM Leaderboard,也可以看到有多個(gè)領(lǐng)域的排行榜。

    圖:HuggingFace 上的其他大語(yǔ)言模型排行榜

    可以看到,把客觀基準(zhǔn)測(cè)試作為 AI 的 " 高考 ",其優(yōu)點(diǎn)很明確:客觀、高效、可復(fù)現(xiàn)

    同時(shí),可以快速衡量模型在某一領(lǐng)域或某一方面的 " 硬實(shí)力 "。

    但伴隨 " 高考 " 而來(lái)的,則是應(yīng)試教育固有的弊端。

    模型可能在測(cè)試中受到數(shù)據(jù)污染的影響,導(dǎo)致分?jǐn)?shù)虛高,但實(shí)際應(yīng)用中卻一問(wèn)三不知。

    畢竟,在我們先前的大模型測(cè)評(píng)中,簡(jiǎn)單的財(cái)務(wù)指標(biāo)計(jì)算也可能出錯(cuò)。

    同時(shí),客觀基準(zhǔn)測(cè)試很難衡量模型的 " 軟實(shí)力 "。

    文本上的創(chuàng)造力、答案的情商和幽默感、語(yǔ)言的優(yōu)美程度,這些難以量化、平時(shí)不會(huì)特意拿出來(lái)說(shuō)的衡量指標(biāo),卻決定著我們使用模型的體驗(yàn)。

    因此,當(dāng)一個(gè)模型大規(guī)模宣傳自己在某個(gè)基準(zhǔn)測(cè)試上 " 登頂 " 時(shí),它就成為了 " 單科狀元 ",這已經(jīng)是很了不起的成就,但離 " 全能學(xué)霸 " 還有很遠(yuǎn)距離。

    02 類(lèi)型二:人類(lèi)偏好競(jìng)技場(chǎng)(Arena),匿名才藝大比拼

    前面已經(jīng)說(shuō)過(guò),客觀基準(zhǔn)測(cè)試更注重于模型的 " 硬實(shí)力 ",但它無(wú)法回答一個(gè)最實(shí)際的問(wèn)題:

    一個(gè)模型,到底用起來(lái) " 爽不爽 "?

    一個(gè)模型可能在 MMLU 測(cè)試中知曉天文地理,但面對(duì)簡(jiǎn)單的文字編輯任務(wù)卻束手無(wú)策;

    一個(gè)模型可能在 MATH 測(cè)試中秒解代數(shù)幾何,卻無(wú)法理解用戶(hù)話(huà)語(yǔ)中的一絲幽默和諷刺。

    面對(duì)上述困境,來(lái)自加州大學(xué)伯克利分校等高校的研究人員組成的 LMSys.org 團(tuán)隊(duì)提出了一個(gè)想法:

    " 既然模型最終為人而服務(wù),那為什么不直接讓人來(lái)評(píng)判呢?"

    這一次,評(píng)判標(biāo)準(zhǔn)不再是試卷和題集,評(píng)分標(biāo)準(zhǔn)交到了用戶(hù)手中。

    LMSys Chatbot Arena,一個(gè)通過(guò) " 盲測(cè)對(duì)戰(zhàn) " 來(lái)對(duì)大語(yǔ)言模型進(jìn)行排名的大型眾包平臺(tái)。

    對(duì)戰(zhàn)時(shí),兩個(gè)模型同時(shí)登場(chǎng),并對(duì)同一個(gè)問(wèn)題進(jìn)行解答,由用戶(hù)決定誰(shuí)輸誰(shuí)贏。

    用戶(hù)在投票前無(wú)法得知兩個(gè) " 選手 " 的 " 真實(shí)身份 ",有效消除了刻板偏見(jiàn)。

    對(duì)于一般用戶(hù)來(lái)說(shuō),LMArena 的使用方法非常簡(jiǎn)單:

    登錄 https://lmarena.ai/ 后,首先由用戶(hù)進(jìn)行提問(wèn),系統(tǒng)會(huì)隨機(jī)挑選兩個(gè)不同的大語(yǔ)言模型,并將問(wèn)題同時(shí)發(fā)送給它們。

    匿名標(biāo)注為 Assistant A 和 Assistant B 兩個(gè)模型生成的答案會(huì)并排顯示,而用戶(hù)需要根據(jù)自己的判斷,投票選擇最合適的回答。

    而在投票后,系統(tǒng)才會(huì)告知用戶(hù) Assistant A 和 Assistant B 分別是哪個(gè)模型,而這次投票也會(huì)加入到全球用戶(hù)的投票數(shù)據(jù)中。

    圖:LMArena 文本能力排行榜

    LMArena 中設(shè)計(jì)了七個(gè)分類(lèi)的排行榜,分別是 Text(文本 / 語(yǔ)言能力)、WebDev(Web 開(kāi)發(fā))、Vision(視覺(jué) / 圖像理解)、Text-to-Image(文生圖)、Image Edit(圖像編輯)、Search(搜索 / 聯(lián)網(wǎng)能力)和 Copilot(智能助力 / 代理能力)。

    每個(gè)榜單都是由用戶(hù)的投票產(chǎn)生的,而 LMArena 采用的核心創(chuàng)新機(jī)制就是 Elo 評(píng)級(jí)系統(tǒng)。

    這套系統(tǒng)最初用于國(guó)際象棋等雙人對(duì)戰(zhàn)游戲,可用于衡量選手的相對(duì)實(shí)力。

    而在大模型排行榜中,每個(gè)模型都會(huì)有一個(gè)初始分?jǐn)?shù),即 Elo 分。

    當(dāng)模型 A 在一場(chǎng)對(duì)決中戰(zhàn)勝模型 B 時(shí),模型 A 就可以從模型 B 那贏得一些分?jǐn)?shù)。

    而贏得多少分?jǐn)?shù),取決于對(duì)手有多少實(shí)力。如果擊敗了分?jǐn)?shù)遠(yuǎn)高于自己的模型,則會(huì)獲得大量分?jǐn)?shù);如果只是擊敗了分?jǐn)?shù)遠(yuǎn)低于自己的模型,則只能獲得少量分?jǐn)?shù)。

    因此,一旦輸給弱者,則會(huì)丟掉大量分?jǐn)?shù)。

    這個(gè)系統(tǒng)很適合處理大量的 "1v1" 成對(duì)比較數(shù)據(jù),能夠判斷相對(duì)強(qiáng)弱而非絕對(duì)強(qiáng)弱,并能夠使排行榜動(dòng)態(tài)更新,更具備可信度。

    盡管有相關(guān)研究人員指出 LMArena 的排行榜存在私測(cè)特權(quán)、采樣不公等問(wèn)題,但它仍是目前衡量大語(yǔ)言模型綜合實(shí)力較為權(quán)威的排行榜之一。

    在 AI 新聞滿(mǎn)天飛的環(huán)境下,它的優(yōu)勢(shì)在于消除用戶(hù)先入為主的偏見(jiàn)

    同時(shí),我們前面提到的創(chuàng)造力、幽默感、語(yǔ)氣和寫(xiě)作風(fēng)格等難以量化的指標(biāo)將在投票中得以體現(xiàn),有助于衡量主觀質(zhì)量

    但是,簡(jiǎn)單的流程和直觀的 " 二選一 " 也為類(lèi)似的競(jìng)技場(chǎng)平臺(tái)帶來(lái)了不少局限性:

    一是聚焦于單輪對(duì)話(huà):其評(píng)測(cè)主要采取 " 一問(wèn)一答 " 的方式,而對(duì)于需要多輪對(duì)話(huà)的任務(wù)則難以充分進(jìn)行評(píng)估;

    二是存在投票者偏差:這是統(tǒng)計(jì)中難以避免的現(xiàn)象,投票的用戶(hù)群體可能更偏向于技術(shù)愛(ài)好者,其問(wèn)題類(lèi)型和評(píng)判標(biāo)準(zhǔn)必然無(wú)法覆蓋普通用戶(hù);

    三是主觀性過(guò)強(qiáng):用戶(hù)對(duì)于 " 好 " 和 " 壞 " 的評(píng)判過(guò)于主觀,而 Elo 分?jǐn)?shù)則只是體現(xiàn)主觀偏好的平均結(jié)果;

    四是缺失事實(shí)核查性:用戶(hù)在對(duì)兩個(gè)模型進(jìn)行評(píng)判時(shí),注意力往往放在答案的表述上,而忽視了回答內(nèi)容的真實(shí)性。

    03 我們到底該看哪個(gè)排行榜?

    AI 江湖的 " 武林大會(huì) " 遠(yuǎn)不止我們提到的這些排行榜。隨著 AI 領(lǐng)域規(guī)模的不斷擴(kuò)大,評(píng)測(cè)的戰(zhàn)場(chǎng)本身也變得越來(lái)越復(fù)雜和多元化。

    很多學(xué)術(shù)機(jī)構(gòu)或大型 AI 公司會(huì)發(fā)布自家的評(píng)測(cè)報(bào)告或自建榜單,體現(xiàn)出技術(shù)自信,但作為用戶(hù),則需要 " 打個(gè)問(wèn)號(hào) "。

    就像足球比賽有主客場(chǎng)之分,機(jī)構(gòu)也可以巧妙地設(shè)計(jì)評(píng)測(cè)的維度和題目,使其恰好能放大某些模型的優(yōu)勢(shì),同時(shí)規(guī)避其弱點(diǎn)。

    另一個(gè)更加宏大的趨勢(shì)是,大模型的評(píng)測(cè)榜單正在從 " 大一統(tǒng) " 走向 " 精細(xì)化 "

    據(jù)不完全統(tǒng)計(jì),迄今為止,全球已發(fā)布大模型總數(shù)達(dá)到 3755 個(gè)。

    " 千模大戰(zhàn) " 的時(shí)代,一份冗長(zhǎng)的通用榜單,顯然無(wú)法滿(mǎn)足所有人的需求。

    因此,評(píng)測(cè)的趨勢(shì)也不可避免地走向細(xì)分化和垂直化

    那么回到最初的核心問(wèn)題:到底誰(shuí)更權(quán)威?

    觀點(diǎn)很明確:沒(méi)有任何一個(gè)單一的排行榜是絕對(duì)權(quán)威的。

    排行榜終究是參考,甚至不客氣的說(shuō),"AI 競(jìng)技場(chǎng) " 歸根到底只是一門(mén)生意。對(duì)于高頻刷榜的模型,我們務(wù)必要警惕——不是估值需求驅(qū)動(dòng),便是 PR 導(dǎo)向驅(qū)動(dòng)。是騾子是馬,終究不是一個(gè)競(jìng)技場(chǎng)能蓋棺定論的。

    但對(duì)于普通用戶(hù)來(lái)說(shuō),評(píng)判一個(gè)模型的最終標(biāo)準(zhǔn)是唯一的:它是否真正對(duì)你有用。

    評(píng)價(jià)和選擇模型,要先看應(yīng)用場(chǎng)景

    如果你是程序員,就去試試 AI 編寫(xiě)代碼、檢查和修復(fù) Bug 的能力;

    如果你是大學(xué)生,就讓 AI 去做文獻(xiàn)綜述,解釋學(xué)術(shù)名詞和概念;

    如果你是營(yíng)銷(xiāo)人,就看看 AI 能否寫(xiě)出精彩的文案、構(gòu)思和創(chuàng)意。

    別讓 " 登頂 " 的喧囂干擾了你的判斷。

    大模型是工具,不是神。看懂排行榜,是為了更好地選擇工具。

    與其迷信排行榜,真如把實(shí)際問(wèn)題交給它試一試,哪個(gè)模型能最高效優(yōu)質(zhì)地解決問(wèn)題,它就是你的 " 私人冠軍 "。

    來(lái)源:錦緞

    THE END
    廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
    免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

    相關(guān)熱點(diǎn)

    相關(guān)推薦

    1
    3
    主站蜘蛛池模板: 亚洲无码一区二区三区| 青青青国产精品一区二区| 好爽毛片一区二区三区四无码三飞| 精品视频一区二区三三区四区| 久久精品一区二区影院| 亚洲AⅤ视频一区二区三区| 精品国产AⅤ一区二区三区4区 | 中文字幕一精品亚洲无线一区| 久久国产香蕉一区精品| 日韩亚洲AV无码一区二区不卡| 亚洲一区二区三区成人网站| 一区 二区 三区 中文字幕 | 亚洲AV美女一区二区三区| 日日摸夜夜添一区| 一区二区三区电影在线观看| 日韩一区二区久久久久久| 国产成人久久一区二区不卡三区| 日本一区二区三区在线网 | 亚洲Av无码国产一区二区| 一区二区三区福利| 精品福利一区二区三区免费视频| 日韩经典精品无码一区| 日本免费一区二区三区四区五六区| 国产精品av一区二区三区不卡蜜 | 无码日韩AV一区二区三区| 任你躁国产自任一区二区三区| 亚洲综合一区国产精品| 国产在线aaa片一区二区99| 最新中文字幕一区| 人妻无码久久一区二区三区免费 | 久久精品国产一区二区电影| 99精品国产一区二区三区不卡| 视频在线一区二区| 一区二区三区视频| 色妞AV永久一区二区国产AV| 无码人妻一区二区三区兔费| 亚洲中文字幕无码一区二区三区| 国产精品亚洲一区二区无码| 精品国产鲁一鲁一区二区| 日韩人妻无码一区二区三区| 日韩AV片无码一区二区不卡|