「奔向 AGI」欄目聚焦 AI 大模型、AI agent、AI 應用、芯片、機器人等前沿、熱門的 AI 技術(shù)和商業(yè)創(chuàng)新。
又一位華人女性即將在美國科技領域書寫新傳奇。
據(jù)科技媒體 The Information 消息,人工智能云服務初創(chuàng)公司 Fireworks AI,正計劃啟動新一輪融資,目標估值達 40 億美元(約合 288 億元人民幣,該估值已包含本輪融資金額)。
目前,知名風投機構(gòu) Lightspeed Venture Partners(美國光速創(chuàng)投)與 Index Ventures 等正就領投事宜展開深入磋商。
若此次融資順利達成,F(xiàn)ireworks AI 的估值將在短短一年內(nèi)實現(xiàn)超 7 倍的飛躍。這也再次凸顯了投資機構(gòu)對 AI 基礎設施領域,特別是推理服務賽道的濃厚興趣。
值得一提的是,這家公司已獲得多家頂級投資機構(gòu)的青睞。此前,紅杉資本、Benchmark 等硅谷老牌風投,以及英偉達、AMD、Databricks Ventures 和 MongoDB Ventures 等產(chǎn)業(yè)資本均已參與其早期融資。
復旦才女創(chuàng)業(yè)
幫企業(yè)低成本、高效定制開源大模型
這位復旦計算機系校友正悄然改寫 AI 基礎設施的競爭規(guī)則。
喬琳(Lin Qiao)在復旦大學計算機本碩連讀畢業(yè)后,便遠赴加州大學圣巴巴拉分校(UC Santa Barbara)攻讀計算機博士學位。
她的職業(yè)生涯始于 IBM 擔任研究職位,專注于數(shù)據(jù)基礎設施和數(shù)據(jù)庫技術(shù),隨后在 LinkedIn 擔任技術(shù)主管,最終在 Meta(原 Facebook)擔任 AI 平臺架構(gòu)關鍵負責人,曾領導超過 300 人的工程師團隊,主導全球 PyTorch 框架的基礎設施研發(fā)及大規(guī)模部署。
此后,她帶領團隊成功推動 PyTorch 成為行業(yè)標桿的開源框架,并將其部署至 Meta 的全球數(shù)據(jù)中心、移動設備和 AR/VR 平臺。
Fireworks AI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官喬琳(Lin Qiao),圖源:The Information
這段在科技巨頭打磨的經(jīng)歷,為喬琳積累了深厚的 AI 底層架構(gòu)研發(fā)經(jīng)驗。
作為全球主流開源機器學習框架 PyTorch 的關鍵建設者,她帶領團隊攻克的技術(shù)難題,如今正轉(zhuǎn)化為 Fireworks AI 的核心競爭力。
當年在 Meta,喬琳見證了一個重要規(guī)律:PyTorch 之所以能在數(shù)十個同類框架競爭中勝出,關鍵在于 " 把復雜留給團隊,把簡單帶給用戶 " 的設計哲學。
盡管背后是數(shù)百名工程師構(gòu)建的復雜技術(shù)體系,但開發(fā)者只需簡單調(diào)用即可獲得強大功能——這種用戶體驗至上的理念,成為她創(chuàng)立 Fireworks AI 的初心。
" 真正的創(chuàng)新不在于功能堆砌,而在于讓技術(shù)回歸本質(zhì)。" 喬琳將這種思考注入創(chuàng)業(yè)實踐。
2022 年,F(xiàn)ireworks AI 在美國加州雷德伍德市創(chuàng)立。Fireworks AI 的創(chuàng)始團隊堪稱 " 夢之隊 ":六位參與過 Meta PyTorch 項目的資深工程師與一位前谷歌 AI 專家組成核心技術(shù)班底,他們延續(xù)著喬琳在 PyTorch 時期沉淀的方法論——前端保持極致簡潔,后端承載海量優(yōu)化。
Fireworks AI 創(chuàng)始團隊,圖源:Fireworks AI 官網(wǎng)
就像當年 Meta 投入數(shù)百名工程師構(gòu)建 PyTorch 生態(tài)卻讓開發(fā)者感受不到復雜度那樣,F(xiàn)ireworks AI 團隊默默攻克著分布式推理引擎等 8 萬多種配置組合的技術(shù)難關,卻將流暢體驗留給終端用戶。
在喬琳看來,當前 AI 領域的變革深度遠超以往任何技術(shù)革命。" 這不僅是簡單的產(chǎn)業(yè)升級,而是整個技術(shù)底座的地殼重構(gòu)。"
她敏銳洞察到生成式 AI 帶來的范式轉(zhuǎn)移:傳統(tǒng)機器學習時代,企業(yè)需要從零搭建模型;而通用人工智能(GenAI)的出現(xiàn),讓創(chuàng)新焦點從 " 構(gòu)建 " 轉(zhuǎn)向 " 應用 "。
這種轉(zhuǎn)變催生了爆炸式的市場機遇——全球 AI 初創(chuàng)企業(yè)如雨后春筍般涌現(xiàn),傳統(tǒng)企業(yè)與數(shù)字原生勢力也爭相涌入,試圖通過 AI 重構(gòu)產(chǎn)品體驗與服務流程。
市場調(diào)研顯示,盡管生成式 AI 技術(shù)門檻大幅降低,但企業(yè)仍面臨基礎設施、專業(yè)人才與算力資源的三大瓶頸。
正是瞄準這個廣闊的市場,F(xiàn)ireworks AI 開創(chuàng)了獨特的商業(yè)模式—— " 推理服務提供商 "(inference provider)。
Fireworks AI 核心在于幫助企業(yè)用更低的成本、更高的效率運行和定制開源大模型,比如深度求索的 DeepSeek、阿里云的 Qwen,還有 Meta 的 Llama。
這些模型原本可能需要企業(yè)自己購買 GPU 服務器來運行,但 Fireworks 換了個更靈活的方式——他們租用第三方的英偉達服務器,然后通過 API 接口直接給開發(fā)者提供這些開源模型的推理能力。開發(fā)者用起來就像調(diào)用 OpenAI 的 GPT-4o 一樣方便,不用操心底層服務器的事情。
他們的核心優(yōu)勢還在于對 GPU 資源做了深度優(yōu)化:通過自研的 Fire Attention 推理引擎等技術(shù),能讓模型推理更快、更省資源,最終幫助客戶降低使用成本。
在這背后,是喬琳對行業(yè)趨勢的深刻判斷。
" 當基礎模型的質(zhì)量與規(guī)模逐漸趨同時,企業(yè)級差異化競爭的關鍵,在于如何用專有數(shù)據(jù)鍛造獨特價值。"
她指出,無論是開源還是閉源的大語言模型,其底層架構(gòu)與數(shù)據(jù)邊界終將收斂,而真正構(gòu)筑護城河的,是如何通過模型微調(diào)將企業(yè)的商業(yè)模式、運營邏輯與 AI 能力深度融合。
這正是 Fireworks AI 致力解決的核心命題——讓每家企業(yè)都能基于自身數(shù)據(jù)土壤,培育出獨具競爭力的 AI 應用之花。
讓 AI 編程工具效率起飛
說句話就能讓 AI 改好代碼
具體來說,F(xiàn)ireworks AI 的產(chǎn)品體系分為多個技術(shù)層級,最底層是自研的分布式推理引擎,這個引擎是專門為生成式 AI 打造的,就像是為 PyTorch 量身定做的推理基礎設施。
這個引擎設計得非常靈活,像搭積木一樣可以自由組合,這樣 Fireworks AI 就能在新開源模型發(fā)布的當天就快速上線。
之所以能做到這么快,是因為 Fireworks AI 借鑒了 PyTorch 的設計理念,把系統(tǒng)做得模塊化且可靈活配置。
在服務模式上,F(xiàn)ireworks AI 不會用 " 一刀切 " 的方案——不存在一個能解決所有問題的萬能模型,也不會有適合所有使用場景的最佳配置。
每個用戶的需求都不一樣,就像買衣服要選合適的尺碼一樣,F(xiàn)ireworks AI 為用戶提供的是可以根據(jù)質(zhì)量、速度和成本這三個維度來定制的解決方案。
比如有的用戶更看重回答質(zhì)量,有的需要更快的響應速度,還有的要考慮成本控制,系統(tǒng)會幫他們找到最適合自己需求的平衡點。
為了實現(xiàn)這個目標,F(xiàn)ireworks AI 開發(fā)了一個叫 Fire Optimizer 的工具。這個工具就像是個智能助手,能根據(jù)用戶的具體需求(比如想要更快的響應還是更高的質(zhì)量),自動調(diào)整模型的配置和部署方案。
這個工具通常會在現(xiàn)有的數(shù)百個模型中選擇一個合適的,然后通過各種方法來優(yōu)化,比如:
1. 量化技術(shù):用更低的精度運行模型(比如用 8 位甚至 4 位數(shù)字代替原來的 16 位),這樣能大幅提升計算效率,就像把高清視頻壓縮成流暢的短視頻一樣;
2. 推測執(zhí)行:讓模型一次預測多個答案(比如一次猜 4 個詞而不是 1 個),使推理速度成倍提升;
3. 模型組合:用小模型先快速給出答案,如果不確定再讓大模型來確認,兼顧效率與準確性。
這些優(yōu)化方法有很多細節(jié)和技巧,比如量化可以應用在模型的不同部分(權(quán)重、激活值等),每種方法對最終結(jié)果的影響都不一樣,需要根據(jù)用戶的具體需求來選擇。
雖然這些選項聽起來有點復雜,但 Fireworks AI 的目標就是讓用戶不必操心這些技術(shù)細節(jié),系統(tǒng)會自動幫他們找到最好的解決方案。
商業(yè)化上,F(xiàn)ireworks AI 近期的年化收入已經(jīng)突破 2 億美元(約合 14 億元人民幣),即每月近 1,700 萬美元(約合 1.22 億元人民幣),公司預計年底將增至 3 億美元(約合 22 億元人民幣)。
其業(yè)務擴張離不開本身就在快速增長的 AI 原生應用公司,例如 AI 編程獨角獸 Cursor、AI 搜索獨角獸 Perplexity 等快速崛起的客戶支持。
那么,AI 編程工具 Cursor 是怎么借助 Fireworks AI 的技術(shù),讓寫代碼比普通方法快好幾倍呢?
Cursor 是個專門給程序員用的智能編程工具,能預測你的操作(比如剛改幾行代碼,它就能猜到你下一步想干啥)、用自然語言改代碼(比如跟它說 " 把這部分改成 xxx")、一鍵把生成的代碼丟進文件里用,還能 " 看懂 " 整個項目的代碼并直接幫你改好。
但程序員用這類工具時有個大麻煩:想讓 AI 改一大段代碼(比如幾百行),現(xiàn)有的 AI 模型(像 GPT-4、GPT-4o)經(jīng)常改得慢、不準,甚至越改越亂,特別影響效率。
為了解決這個難題,Cursor 專門訓練了一個新模型,專門處理 " 快速改代碼 " 的任務(稱作 "Fast Apply"),在 700 億參數(shù)的大模型上每秒能生成約 1000 個 token(大概 3500 個字符),比 GPT-4 和 GPT-4o 快多了,訓練數(shù)據(jù)用的是程序員平時用指令改代碼的輸入和真實操作數(shù)據(jù),針對性很強。
不過光有厲害的模型還不夠,還得讓它跑得更快。Fireworks 給 Cursor 提供了底層支持,用了兩個關鍵技術(shù):
一是把 Cursor 的模型部署到自己的推理引擎上,還針對 " 改代碼 " 任務做了性能優(yōu)化;
二是用了推測解碼技術(shù)——普通 AI 生成代碼得一個 token 一個 token 慢慢算,但推測解碼能 " 猜 " 接下來可能出現(xiàn)的多個 token(比如一次猜好幾個詞),然后一次性驗證這些猜測對不對,對的就直接用,錯的再調(diào)整,這樣就能同時處理好多 token,速度直接起飛。
Cursor 還搞了個升級版 " 推測編輯 ",專門針對改代碼的場景,比如改一大段文字時,AI 能根據(jù)你之前的操作大膽猜 " 你可能想把這幾行改成 xxx",然后一次性生成好長一段再快速驗證,F(xiàn)ireworks 用這個技術(shù)讓 Cursor 的模型速度飆到每秒 1000 個 token,比普通推理快 13 倍,比之前用 GPT-4 的版本也快了 9 倍。
效果就是程序員改幾百行代碼幾秒鐘就能出結(jié)果,不用等半天,而且雖然猜得快,但最后還會用 " 嚴格模式 " 檢查一遍,確保代碼是對的。
可以說,如今程序員點個按鈕就能把 AI 生成的代碼直接丟進項目里,或者一句話讓 AI 改好代碼,效率直接拉滿。
英偉達投資 Fireworks AI 后
親自殺入推理服務
當前競爭格局中,F(xiàn)ireworks AI 的直接對手包括 Together AI 和 Baseten。
以 Together 為例,其今年 3 月年化營收達 1.5 億美元(約合 11 億元人民幣),即每月約 1250 萬美元(約合 9000 萬元人民幣),估值 30 億美元(約合 216 億元人民幣)。
但整個賽道面臨更強勁的對手——英偉達今年 3 月收購推理服務商 Lepton 后,強勢推出 GPU 云服務市場,直接切入了 Fireworks AI 的核心業(yè)務領域。
投行分析指出,若大型云服務商為降低 AI 訓練推理成本、提供定制化服務而整合產(chǎn)業(yè)鏈,這類初創(chuàng)企業(yè)很有可能成為潛在收購目標。
同時,F(xiàn)ireworks 也面臨盈利挑戰(zhàn):雖毛利率約 50%(與同行相當),但低于訂閱制軟件常見的 70% 水平。
這主要因為需預留大量服務器應對需求峰值,同時承受來自 CoreWeave 等 GPU 云商家的低價競爭。為此,公司正通過持續(xù)優(yōu)化 GPU 資源效率提升毛利率至 60%,并將此列為重點戰(zhàn)略方向。
盡管如此,投資機構(gòu)仍然看好 Fireworks AI 的潛力。
睿獸分析顯示,F(xiàn)ireworks AI 成立至今已經(jīng)完成共計 7,700 萬美元的兩輪融資。B 輪融資過后,公司估值達到 5.52 億美元(約合 40 億元人民幣),投資方包括紅杉資本、Benchmark 等頂級風投,以及英偉達、AMD、Databricks Ventures 和 MongoDB Ventures 等產(chǎn)業(yè)資本。
可以說,喬琳是被英偉達創(chuàng)始人兼 CEO 黃仁勛和 " 芯片女王 "AMD 董事長兼 CEO 蘇姿豐同時看中的創(chuàng)業(yè)者。
喬琳透露,F(xiàn)ireworksAI 未來一年的核心戰(zhàn)略是強化 Fire Optimizer 系統(tǒng)——該智能優(yōu)化工具能在模型質(zhì)量、響應速度、成本之間自動尋找最優(yōu)解。
目前,F(xiàn)ire Optimizer 已經(jīng)在響應速度和成本控制上做的足夠好,接下來會特別強化在推理質(zhì)量上的能力。通過個性化定制,能夠讓模型效果比通用模型或普通 API 強得多,特別是當加入客戶自己的業(yè)務數(shù)據(jù)后,效果會更為出色。
盡管用戶體驗容易被復制,但真正拉開差距的護城河是企業(yè)自己積累的數(shù)據(jù)和用戶使用習慣——這些數(shù)據(jù)形成的反饋循環(huán)特別重要,會直接反哺到他們使用的 AI 模型里。
喬琳預測,2025 年將成為 "Agent 年 " 和 " 開源模型年 "。
各行業(yè)將涌現(xiàn)大量解決垂直問題的 AI 智能體,同時開源模型將迎來井噴式發(fā)展——就像 DeepSeek 當時發(fā)布僅一個月,Hugging Face 上就出現(xiàn)了 500 多個優(yōu)化版本,還成功將其適配到各種設備和云平臺上,Perplexity 和她的客戶 Linnk 還開發(fā)了針對金融服務的定制版本。
不過,她也指出,未來最大的挑戰(zhàn)在于:
如何讓快速發(fā)展的 AI 智能體和開源模型更好地結(jié)合,在最后一公里實現(xiàn)質(zhì)量優(yōu)化,為用戶提供更好的實時體驗。這也是 FireworksAI 公司今年要重點解決的問題——簡化開發(fā)者在這方面的工作流程。
在4 月紐約舉辦的行業(yè)峰會上,喬琳展示了團隊的終極愿景:" 我們賭定那些真正懂產(chǎn)品的開發(fā)者。誰能玩轉(zhuǎn)自己的數(shù)據(jù)、調(diào)教出更聰明的模型,誰就能贏到最后。"
FireworksAI 要做的,就是提供工具與基礎設施,幫助開發(fā)者定制模型、注入數(shù)據(jù),全面提升推理質(zhì)量、速度與并發(fā)能力——讓每個用心打磨產(chǎn)品的團隊,都能站上 AI 時代的聚光燈下。
來源:創(chuàng)業(yè)邦