用戶投出來的大模型榜單-GPT4o、訊飛星火位居前列

    每日快訊
    2024
    08/02
    16:02
    分享
    評論

    從去年的“百模大戰”到今年的“優勝劣汰”,AI大模型賽道呈現賽馬機制,不少國產大模型以GPT-4o為標桿快速迭代,在核心能力上持續趕超。近期,由國內權威大模型評估平臺OpenCompass(司南)公布的CompassArena周榜上,科大訊飛星火大模型連續三周位列前三,兩次摘得第二桂冠。由于榜單采用專業用戶投票方式,結合了用戶對各款大模型的真實體驗,更具客觀性和說服力,含金量十足。

    微信截圖_20240802113719副本

    OpenCompass(司南)是由上海人工智能實驗室發布的開源大模型評測體系,目前已成為業界權威的大模型評估平臺,涵蓋學科、語言、知識、理解、推理等評測維度,可全面評估大模型的綜合能力。在最新三期專業用戶投票的周榜評選中,訊飛星火以Elo-1078和Elo-1081位居前三,榜單前四強還出現阿里通義千問和百度文心一言的身影,它們共同組成了國產大模型的第一梯隊,不斷向榜單第一名的GPT-4o發起挑戰。

    配圖 (1)

    根據CompassArena榜單排名規則,平臺會利用Bradley-Terry模型,基于歷史匿名對戰數據評估大模型競技場Elo的等級分數,并使用該分數對大模型進行排名。最終數據可以公正、開放、透明的反映當前各家大模型產品的綜合實力。

    作為明確提出對標OpenAI的國內大模型公司,科大訊飛在今年6月27日發布的星火V4.0版本上,已完成了對GPT-4 Turbo的整體超越。根據八個國際主流測試集的橫向評測,訊飛星火V4.0排名第一,在文本生成、語言理解、知識問答、邏輯推理、數學能力等方面完成了整體超越。這些測試集既有HumanEval、WinoGrande、GPQA等英文評測,也有C-Eval、CMMLU等中文評測,充分展現了訊飛星火的全方位實力。

    此前,訊飛星火還在國際權威的《麻省理工科技評論》橫評中脫穎而出,憑借領先的語言能力、數學、理綜等多項核心能力,超越了同期的其它國產大模型選手,并以1013分的總分斬獲國產主流大模型榜首席位。該機構還認為,訊飛星火在工作提效方面具有明顯優勢,是一款優秀的提效類工具。

    目前,訊飛星火憑借領先技術優勢和出色的體驗,持續領跑國內大模型第一梯隊。根據訊飛星火V4.0發布會上公布的數據,其安卓端APP的累計下載量已經高達1.31億次,位列國內工具類通用大模型APP第一。更有大量圍繞日常工作、生活與學習的實用助手“源源不斷”地涌現,持續幫助用戶解放生產力,釋放想象力。

    歷經一年多迭代,訊飛星火快速成長為國內領先的大模型,對標GPT-4o的下一代版本也在研發中。隨著核心能力的持續升級,訊飛星火不僅將穩居國產大模型第一梯隊,更有機會成為國產大模型的代表去對戰GPT-4o。

    THE END
    廣告、內容合作請點擊這里 尋求合作
    互聯網
    免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

    相關熱點

    相關推薦

    1
    3
    主站蜘蛛池模板: 日本一区二区在线| 少妇人妻精品一区二区| 人体内射精一区二区三区| 日韩精品一区二区三区国语自制| 久久亚洲色一区二区三区| 亚洲电影唐人社一区二区| 中文字幕在线一区| 日本一区二区三区中文字幕| 另类国产精品一区二区| 色国产精品一区在线观看| 丝袜无码一区二区三区| 夜夜精品无码一区二区三区| 伊人久久精品一区二区三区 | 后入内射国产一区二区| 日韩精品无码一区二区三区免费| 国产不卡视频一区二区三区| 精品无码一区二区三区水蜜桃| 97精品一区二区视频在线观看| 国产a∨精品一区二区三区不卡| 中文字幕一区二区日产乱码| 国产福利电影一区二区三区,日韩伦理电影在线福 | 日韩精品一区二区三区四区 | 亚洲日本久久一区二区va| 精品国产一区二区三区久久| 日本韩国黄色一区二区三区| 午夜性色一区二区三区不卡视频| 久久久久人妻一区二区三区| 久久er99热精品一区二区| 国产午夜精品一区二区三区| 一区二区在线视频观看| 亚洲国产成人精品久久久国产成人一区二区三区综 | 亚洲宅男精品一区在线观看| 在线日产精品一区| 欧美成人aaa片一区国产精品 | 日本片免费观看一区二区| 一区二区不卡在线| 免费高清av一区二区三区| 日本精品一区二区三区在线视频| 一区二区国产在线播放| 免费日本一区二区| 国产乱码精品一区二区三区中|