史上最卷 12 月:全球 15 家 Top 級 AI 公司瘋狂上新

    創(chuàng)投圈
    2024
    12/16
    17:39
    分享
    評論

     

    2024 年的最后一個月,全球 AI 圈好像約好了,一起開啟年底狂卷模式,批量發(fā)布新品。

    據(jù) " 四木相對論 " 統(tǒng)計,這場年末上新的 " 戰(zhàn)局 ",至少有 15 家全球 Top 級 AI 公司參與,上新了 20+ 個功能。

    在海外,最受關(guān)注的無疑是 OpenAI 開啟 12 天大放送,期貨 Sora 終于兌現(xiàn)。

    差不多同期,Google、xAI、World Labs、Meta、Amazon、Pika、Runway 等海外名企也都上新了 AI 功能。

    國內(nèi)的 12 月,大廠、六小虎和 AI 鯰魚 DeepSeek,無一不踏入戰(zhàn)局。

    " 卷王 " 字節(jié)首當其沖。它在豆包和即夢中上新了圖像理解能力。

    六小虎中的 MiniMax、階躍星辰、智譜 AI,有的卷模型,有的卷 Agent 應(yīng)用。Deepseek 和騰訊直接上新并開源了模型。

    整體來看,各大公司近期的更新呈現(xiàn)以下特點:

    視覺能力和生產(chǎn)力場景是兩大主題;

    80% 以上的更新都圍繞 " 視覺 ";

    可協(xié)作、可編輯是產(chǎn)品層更新的方向;

    解析理解能力依舊是模型層的重點。

    但卷歸卷,不少產(chǎn)品也出于缺乏曝光等因素,發(fā)布得 " 悄無聲息 "。

    還有些萬眾期待的產(chǎn)品,比如 Sora,收獲了滿屏差評。

    在這個轟轟烈烈的 12 月,目前你記住了誰?

    海外:OpenAI 擠牙膏,其他家無人 care?

    在這個 12 月,已經(jīng)加入 AI 上新戰(zhàn)局的海外公司至少有 OpenAI、Google、xAI、Meta、Amazon、Pika ……

    " 營銷專家 "OpenAI 的聲勢最大。

    12 月 6 日,它拉開了 " 雙十二 " 的陣仗,要連做十二場發(fā)布會。

    目前日程已經(jīng)進入到第七天,發(fā)布成果如下:

    Day1:發(fā)布 o1 正式版以及 o1 Pro 版本,以及 200 美金的 ChatGPT Pro 會員。

    Day2:介紹強化微調(diào)(Reinforcement Finetuning)功能,即通過少量數(shù)據(jù)讓模型在專業(yè)領(lǐng)域到達專家水平。

    Day3:Sora 登場,接入了新模型 Sora Turbo 的 Sora,最高上限支持生成 1080p、20 秒視頻,支持橫屏豎屏各種常見尺寸。

    Day4:發(fā)布生產(chǎn)力工具 Canvas,該功能允許用戶與 ChatGPT 合作寫作和編碼。

    Day5:ChatGPT 融入蘋果生態(tài)。

    Day6:三個功能發(fā)布:實時視頻通話、實時理解屏幕、圣誕老人限定語音。

    Day7:推出了 Projects In ChatGPT 功能,可以將 ChatGPT 的各種功能整合至一處,便于用戶創(chuàng)建并管理各類項目。

    不僅是 OpenAI,Google、Pika、Midjourney、xAI 也在這周有了新動作。

    12 月 14 日,Pika 上新模型 2.0,引入場景元素(Scene Ingredients)功能。

    這一功能允許用戶自由選擇角色、物品、服裝和場景元素,根據(jù)需求構(gòu)建特點鏡頭。同時, Pika 2.0 支持多人在同一畫布上協(xié)作。

    12 月 12 日凌晨,谷歌發(fā)布了 Gemini2.0,聲稱"Gemini2.0 是我們迄今為止最新、功能最強大的 AI 模型。"

    這一模型可以支持圖片、視頻和音頻等多模態(tài)的輸入和輸出,速度也是 1.5Pro 的兩倍,還能直接調(diào)用 Google Search、代碼執(zhí)行等工具。

    在 Gemini2.0 架構(gòu)之上,谷歌還推出或升級了三個新的 AI Agent 原型:通用大模型助手 Project Astra、瀏覽器助手 Project Mariner、編程助手 Jules。

    不過,Gemini2.0 的聲量相較于 Sora 小得多。

    幾乎在官宣之后不到半小時,Gemini 2.0 詞條的熱度在 Twitter 上就已經(jīng)掉到了第 8。在不斷下降的過程中,網(wǎng)友們還在分享 Sora 的鬼畜視頻,以及 Hunyuan、Hailuo、Kling 與 Sora 的能力對比。

    這可能也是因為 Gemini 2.0 的更新雖然好評很多,但從表述上看起來很 " 常規(guī) ":更快速的響應(yīng)、支持聯(lián)網(wǎng)搜索、新上線的 " 深度研究 " 功能支持多輪復(fù)雜推理、代碼生成增強、第三方工具調(diào)用能力補充。

    同一天,Midjourney 官宣了 patchwork 功能更新。

    這是一個允許多人在線共同創(chuàng)建出一個世界的實驗性功能,所有參與者將在一塊白板畫布上共同創(chuàng)作(有點像 Canva 和 Figma 的共同編輯)。

    而且畫布還給每個用戶的世界創(chuàng)建了一個傳送門,可以連接到別人的世界中。

    之前 Midjourney 的更新基本都圍繞著圖片生成的能力,比如支持 AI 修圖、支持新畫風(fēng)的模型等等。

    但這次的 Patchwork 讓 MJ 在玩法上有了大不同,從一個只能一個人用的圖片生成工具,變成了一個可以讓大家一起玩起來的 AI 藝術(shù)創(chuàng)作產(chǎn)品。

    手握巨卡的 xAI,同樣在卷視覺方向。

    12 月 10 日,xAI 發(fā)布了首款完全自研圖像生成模型 Aurora。

    Aurora 已經(jīng)直接集成到了 Grok 中,這是一個自回歸混合專家模型(MoE),在混合文本和圖像數(shù)據(jù)集上完成了訓(xùn)練。除了圖片生成,Grok 還有編輯能力,用戶可以直接在生成的圖像上進行修改,這一功能也將上線 X。

    Meta 也在 12 月 7 日發(fā)布了 Llama 3.3,在性能上開卷。據(jù)說現(xiàn)在 70B 的版本就能實現(xiàn)以前 405B 的性能。

    它在指令遵循(IFEval)、數(shù)學(xué)(MATH)、推理(GPQA Diamond)等領(lǐng)域的水平都超過了七月份發(fā)布的 Llama 3.1 405B。在語言(MMLU)、代碼(HumanEval)、長文本和多語種能力上,它的成績也和 Llama 3.1 405B 比較接近。

    官方將 Llama 3.3 的進步歸功于新的對齊過程和在線強化學(xué)習(xí)技術(shù)的進步。

    Runway 則在前一天,也就是 12 月 6 日更新了自己的 act-one 功能。這個新功能允許用戶將自己拍攝的表演動作或聲音直接 " 套用 " 到已有的視頻角色上(包括 AI 角色)。

    在 12 月最早打響發(fā)布 " 競賽 " 的其實是 "AI 教母 " 李飛飛。

    12 月 3 日,李飛飛創(chuàng)立的 World Labs 首次官宣了 " 空間智能 " 模型,利用一張圖就能生成一個 3D 世界。

    這些 3D 場景都能在瀏覽器中實時渲染,還能實現(xiàn)可控的相機效果,可調(diào)節(jié)的模擬景深。

    也是在同一天,亞馬遜對外發(fā)布了多模態(tài)模型 Nova 系列。

    亞馬遜這次直接發(fā)了一個大號全家桶,包括:超快速文本生成模型 Amazon Nova Micro,能夠處理文本、圖像和視頻并生成文本的多模態(tài)模型 Amazon Nova Lite、Amazon Nova Pro 和 Amazon Nova Premier,用于生成高質(zhì)量圖像的 Amazon Nova Canvas 和用于生成高質(zhì)量視頻的 Amazon Nova Reel。

    不管這一波海外的年底上新如何轟轟烈烈,看起來,很多人只關(guān)注了 Sora。

    好吧,OpenAI 的營銷又贏了。

    國內(nèi):六小虎大廠混戰(zhàn)視覺

    相比海外,國內(nèi)廠商們的 " 卷 " 勢更早出現(xiàn)。各家的方向從模型卷到產(chǎn)品,離不開視覺和生產(chǎn)力兩個話題。

    " 四木相對論 " 也對近半個月的新品進行了匯總:

    在大公司里,字節(jié)和騰訊是 12 月最卷的大廠(通義千問在 11 月 28 日發(fā)布了 QWQ 模型)。

    在這個 12 月,前者在豆包和即夢上先后更新功能,后者一下子開源了視頻生成模型。

    先看字節(jié)。

    12 月 10 日,豆包官方表示,電腦版的視頻生成功能已經(jīng)開啟內(nèi)測。

    獲得內(nèi)測資格的賬號每日可免費生成十支視頻。內(nèi)測申請通過后,選擇 " 視頻生成 " 功能,上傳一張圖片,輸入提示詞,并添加運鏡、分鏡信息,就能生成短視頻。

    再往前的 12 月 5 日,豆包增加了 AI 生成文字圖功能。也就是說,用戶現(xiàn)在可以在提示詞中加入文本要求,生成帶有指定文字的圖片,做海報、做表情包都能用。

    (四木用豆包做的圖,強調(diào)了 " 四木廚房 ")

    類似的功能還體現(xiàn)在即夢上。

    12 月 2 日晚,即夢上新 2.1 模型。這次的模型突破體現(xiàn)在中文文字可以穩(wěn)定生成,當然也支持英文。

    騰訊混元這個月最大的動作,就是正式上線視頻生成能力。

    12 月 3 日,騰訊不僅上線了這個 130 億參數(shù)的模型,還把它開源了。

    目前,模型已上線騰訊元寶 APP,用戶可在 AI 應(yīng)用中的 "AI 視頻 " 板塊申請試用。企業(yè)客戶通過騰訊云提供服務(wù)接入,API 同步開放內(nèi)測申請。

    " 四木相對論 " 觀察到,騰訊混元系列模型在這兩個月動作比較頻繁。

    11 月初,它宣布最新的 MoE 模型 " 混元 Large" 以及混元 3D 生成大模型 "Hunyuan3D-1.0" 正式開源。12 月又上新文生視頻能力,正式加入了卷視頻模型的隊列。

    大廠之外,大模型六小虎中的三虎——智譜 AI、MiniMax 和階躍星辰也在本月上新。

    先來看智譜。

    12 月的智譜在模型和應(yīng)用兩端發(fā)力。首先是多模態(tài)模型—— GLM-4V-Flash 上線了智譜的開放平臺,可以免費調(diào)用。

    GLM-4V-Flash 模型擁有圖像描述生成、圖像分類、視覺推理、視覺問答(VQA)以及圖像情感分析等圖像處理功能。

    多模態(tài) / 視覺類的 API 都非常貴,號稱視覺能力對標 GPT-4o mini 模型的 GLM-4V-FlashAPI 免費,也稱得上是真卷。

    產(chǎn)品方面,Auto-GLM 是智譜近期的重點。

    首先智譜在 11 月 29 日發(fā)布了 Auto-GLM 的手機版和電腦版。半個月之后的 12 月 12 日,Auto-GLM 又更新了一個版本。

    用戶打開 AutoGLM 后,可以通過語音發(fā)指令,讓智能體接管自己的手機,并在可操作的 App 上自動執(zhí)行購買外賣,訂高鐵票、目的地導(dǎo)航等任務(wù)。

    經(jīng)過 " 四木相對論 " 測試,更新之后,Auto-GLM 支持的應(yīng)用更穩(wěn)定。同時它還增加了自定義高頻短口令,快速觸發(fā)常用任務(wù)等功能。

    智譜 CEO 張鵬在發(fā)布會現(xiàn)場的 AI 發(fā)紅包操作一度刷屏," 四木相對論 " 也復(fù)刻成功了。

    Minimax 同樣在這個月卷起了多模態(tài)。

    12 月 3 日,海螺 AI 圖生視頻模型 I2V-01-Live 上線了。

    視頻生成一定是 MiniMax 今年的亮點之一。之前,MiniMax 的亮點幾乎全部集中于 Talkie,但海螺視頻的上線打破了這一印象。

    這次的 I2V-01-Live 更新了二維插畫的動態(tài)呈現(xiàn)方式,讓動畫穩(wěn)定性和細膩表現(xiàn)力有了增強。一張圖 + 一句話就能將 2D 插畫轉(zhuǎn)化為動態(tài)視頻。

    一直略顯低調(diào)的另一只小虎階躍星辰也有模型層的更新。

    周五(12 月 13 日)階躍星辰發(fā)布了端到端語音大模型—— Step-1o 。

    從官方介紹來看,Step-1o 支持語音、文本等混合形式的輸入和輸出,能理解和模仿音色、韻律、方言、個性化的口語表達習(xí)慣等聲音特征。它還能夠通過自學(xué)和模仿不斷提升回復(fù)質(zhì)量,提供解決問題的專業(yè)建議。

    從場景上看,它支持包括新聞播報、聊天陪伴、有聲讀物、在線教育、智能硬件汽車等語音交互技術(shù)需求。

    近期,Step-1o 還將接入躍問 App 端,實現(xiàn)實時語音通話服務(wù)。

    國內(nèi) AI 圈另一無法忽視的角色—— DeepSeek,在短短半月內(nèi)進行了兩次上新。

    最新開源的 DeepSeek-VL2(12 月 13 日發(fā)布)是一個專家混合(MoE)語言模型。

    DeepSeek-VL2 比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),引入梗圖理解、視覺定位、視覺故事生成等新能力。視覺部分使用切圖策略支持動態(tài)分辨率圖像,語言部分采用 MoE 架構(gòu)低成本高性能。

    這次,大模型價格 " 卷王 " 更是在視覺模型上開 " 卷 "。

    根據(jù) DeepSeek 提供的評測對比,DeepSeek-VL2 在相似或更少的激活參數(shù)下實現(xiàn)了最先進的性能。

    另外,DeepSeek V2.5 系列的最終版微調(diào)模型—— DeepSeek-V2.5-1210 也在 2 月 10 日更新。

    據(jù)官網(wǎng)介紹,這次更新通過 Post-Training 全面提升了模型各方面能力表現(xiàn),包括數(shù)學(xué)、代碼、寫作、角色扮演等。同時,新版模型優(yōu)化了文件上傳功能,并且全新支持了聯(lián)網(wǎng)搜索,可以服務(wù)各類工作生活場景。

    不同于某些 AI 公司只強調(diào)功能或者模型的偏好,這次 DeepSeekV2.5-1210 模型更新后,它的 Chat 窗口呈現(xiàn)出兩個 Tag —— " 深度思考 " 和 " 聯(lián)網(wǎng)搜索 "。

    這似乎在告訴外界:產(chǎn)品日常場景和模型推理能力我全都要。真的是卷王了。

    12 月才剛剛過半,接下來,AI 圈的上新還會繼續(xù)。

    畢竟,OpenAI 的年末發(fā)布剛剛走過一半。字節(jié)也會在下周舉行大會,強調(diào)豆包、即夢的更新。

    最卷 12 月,AI 永不眠。

    來源:四木相對論

    THE END
    廣告、內(nèi)容合作請點擊這里 尋求合作
    免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

    相關(guān)熱點

    相關(guān)推薦

    1
    3
    主站蜘蛛池模板: 国产精品主播一区二区| 亚洲AV无码一区二区乱孑伦AS| 亚洲av无码一区二区三区网站| 无码日韩AV一区二区三区| 亚洲V无码一区二区三区四区观看 亚洲爆乳精品无码一区二区三区 亚洲爆乳无码一区二区三区 | 国产品无码一区二区三区在线| 蜜臀Av午夜一区二区三区| 无码成人一区二区| 青青青国产精品一区二区| 麻豆文化传媒精品一区二区| 91在线看片一区国产| 亚洲欧美成人一区二区三区| 日韩一区二区三区免费体验| 一区二区不卡视频在线观看| 国产亚洲无线码一区二区| 亚洲一区精品中文字幕| 亚洲一区二区三区乱码在线欧洲| 亚洲综合一区二区精品久久| 国产一区韩国女主播| 国内国外日产一区二区| 波多野结衣一区二区三区| 视频在线一区二区三区| 亚洲福利视频一区| 国产伦精品一区二区三区免费迷 | 无码人妻少妇色欲AV一区二区| 精品一区二区视频在线观看| 福利一区二区视频| 精品无码日韩一区二区三区不卡| 爆乳无码AV一区二区三区| 制服丝袜一区二区三区| 无码人妻aⅴ一区二区三区| 久久精品综合一区二区三区| 搡老熟女老女人一区二区| 国产精品视频一区二区三区不卡| 熟女精品视频一区二区三区| 亚洲熟女www一区二区三区| 在线播放偷拍一区精品| 武侠古典一区二区三区中文| 亚洲电影一区二区| 鲁丝片一区二区三区免费| 国内精自品线一区91|