11月5日,由微博與新浪新聞聯合主辦的“新浪新聞·2025探索大會”在北京落幕。在大會主題分享環節,火山引擎副總裁張鑫進行了題為《智能體“1+N+X”一站式工作站從生產工具到生產力上崗》的演講。

火山引擎副總裁張鑫-主題演講
以下是演講實錄,內容經編輯略有刪減:
每次遇到像大模型這樣一個技術浪潮的時候,人們總是喜歡用一些大的跨時代性的詞匯描述和贊美。比如有人把大模型稱為第四次工業革命,有人把它稱為新時代的水電煤,但是我更傾向于用一個一個里程碑式的時刻來去勾畫一些技術演進的路徑。
比如從ChatGPT發布至今,先后經歷了蘋果時刻,因為我們人機交互的方式發生了本質的變化,從圖形界面變成自然語言交互,甚至開發方式也發生最根本的變化,自然語言成為AI時代新的源代碼。
隨后豆包的出現在短時間內迅速積累上億的用戶,又給我們帶來了AI的普惠時刻,包括到了今年春節DeepSeek的開源,又通過開源開放的方式推動整個行業技術進步。
當然創新腳步并沒有停止,反而在加速。比如像Deep Research的出現,又讓很多人驚呼,說AI時代這個智能體時刻真的到來,但我覺得更重要的一個問題是我們如何去預判下一個時刻,有人還是用了一些很宏大的詞匯,比如AGI,AI達到人類的水平,甚至是ASI超級人工智能,AI甚至能超越人類的智力。
這些從我的角度我覺得道路還比較漫長,但我已經看見在發生的一個時刻,AI直接能夠作為數字勞動力直接上崗的時刻,所以前面幾位專家老師也提出了一個共同的問題,AI可能會讓哪些人先失業?剛才聊了很多,從我的角度來講,在如下三個領域里,我看到AI和智能體是最能夠成為數字勞動力直接上崗的領域,哪三個領域?
第一,人力密集型的領域,需要大量重復勞動,人員眾多,甚至有的時候水平參差不齊,需要大量培訓的場景,比如像客服、審核、標注,因為智能體本質上拓展就是人類體力和時間的邊界。
第二,知識密集型場景,對知識要求非常高,但是老專家又非常稀缺,比如說我們的咨詢、法務、醫療,智能體本質上解決的是知識分發的問題。
第三,IT密集型場景,比如AI Coding,包括網絡運維,因為在這樣一些領域天然就是數字原生,所以通過AI和智能體可以更進一步提升效率。當然理論很美好,講到這里有相關的聽眾可能也會引起一段焦慮,但是我覺得現在還不必焦慮。
真正打造這樣一個智能體數字員工,理論是很美好的,在座有很多技術專家,大家看過非常多類似的架構圖,什么是一個Agent?又能感知、又能規劃、又能反思、又能和環境交互,但是它真實落地情況是什么樣呢?
時間關系,我今天只分享兩步--當然可能有很多因素。
第一步,從好的模型到好的應用開始。因為我們越來越認識到,模型能力的上限其實就能夠框定應用效果的下限;模型能力的提升,會解鎖更多的上層應用的爆發。我們的豆包大模型其實是最好的一個例子,在過去從2024年5月份發布到今天,短短一年多的時間里,Tokens調用量增長253倍,我覺得它成為了AI時代新的科技密度和智商密度的一個衡量單位。
模型能力的提升,為什么能帶來更好的應用?本質上能給我們解鎖更多好的應用場景,因為今天咱們大會的主題是探索,所以我們也往前探索一下,分享我們認為至少在未來一年之內,模型能力能給我們解鎖哪些新的場景。
第一個場景,融合多模態的深度思考能力。過去當大模型剛出現的時候,往往把大模型這三個字和大語言模型五個字劃等號,如果我們仔細想,人類信息接觸的方式,它不光是語言,有視覺和語音,甚至再暢想一下,甚至可能文本的token只是技術發展上的偶然,所以我們的深度思考不光能基于文字來進行,還要能基于我們所看到的、聽到的去進行思考。
舉一個例子,在座確實也有很多影視行業的專家,比如過去在網上我自己也非常喜歡玩的游戲就是找穿幫,我們經常有一些紕漏的地方會造成一些穿幫的鏡頭,但是今天結合大模型的視覺理解能力,比如給定一張特定的背景和設置,這是一個古代的背景,從圖片里我們看布景里有沒有一些穿幫鏡頭,我自己當時找其實是花了一些時間,但是結合今天大模型的理解能力,能迅速發現里面右下角桌上的礦泉水瓶是不符合這個時代背景。
甚至看一個更復雜的例子,給定一個80年代末北方一個很貧窮的家庭房廳的背景,讓大模型判斷,說在整個布景里面有哪些物品是不符合這個時代的人設,大模型經過一頓分析以后,它首先能理解貧窮這兩個字的含義,發現布景里面的縫紉機是不應該出現在80年代末一個貧窮的家庭里,甚至更細的它能發現里面的暖水壺和臉盆都過于嶄新,不符合背景的設置。
從視覺里面找穿幫找出規律漏洞以外,甚至可以做基于多模態的搜索,我經常自己會看到一個很好的電影片斷甚至一張圖片,很想知道原片出自于哪里,今天的搜索不光基于文字,直接可以通過我們的文字、視頻、圖像都統一的映射到同一個向量空間里,去實現所謂多模態混合檢索。比如給一張米老鼠彈鋼琴的截圖,就能從視頻影視資料庫里面找到對應的一些影片。
當然,第一個趨勢其實更多是從多模態里提煉出信息,我們還需要的第二個信息傳播維度是反向的:給定一個信息,把它變成多模態的一種表達。第一個當然就是對于圖像的生成,這里不用我多講了,有圖有真相,我們可以看到,今天以豆包為例,視頻是圖片生成的模型可以支持不管是圖片創作還是編輯,都能非常輕松的駕馭。像我們剛才提到的,可以讓非技術人員大家都能實現專業級的圖片創作。
除了圖片之外,其實視頻能夠給我們帶來更高的信息密度、更沉浸式的體驗以及更加直觀的感染力,所以我們看一段視頻,基于豆包剛才我們講的圖像編輯模型和視頻生成的模型,我們完全可以生成一部AI的這樣一部影片。
可以看到整個畫質更加高清,同時可以多支持不同的運鏡,保證多個故事之間邏輯的連貫性和一致性,包括支持不同的運鏡,還能在這個視頻里結合我們想要的經典元素,讓非科班的創作者都能快速去實現自己的導演夢。
正是基于這樣的技術能力,今年9月份,火山引擎也攜手上海電影和剪映,參加了今年第30屆的釜山電影節,并且舉辦了AI未來影像的峰會,在會上還展示了五個AI的短片,所以確實像龔老師說的,我覺得通過技術的手段能夠讓人人成為創作者的夢想能夠照進現實,讓大家都能夠通過光影去表達自己的心聲。
當然多模態的領域除了能生成圖片視覺以外,其實在聽覺語音上,今天的大模型也給我們帶來了非常多的突破,我相信大家對AI合成聲音并不陌生,但可是過去可能沒有太多的愛,因為AI的味道太濃了,但是今天的這個大模型不光可以以非常少的樣本量去進行人聲的模擬復刻,甚至能夠用更加流暢、更加自然的語音語調去播報,我們現在可以做一個小的測試,大家可以聽一下在下面這個播客里,哪一個聲音是來自于真人,哪一個聲音是來自于AI。
大家聽到語氣還是很自然的,有沒有嘉賓想參與一下,哪個是真人,哪個是AI?
我們可以看到,其實從大家的遲疑里,真人和AI的聲音已經很難分辨了,所以從語音的角度,甚至可以宣布AI已經通過了圖靈測試,因為已經很難分辨哪個是真人、哪個是機器了。
基于趨勢一的理解和趨勢二的生成,第三個趨勢是大模型真的能下場干活了,但是講到智能體,大家可以回想一下,在2025年之前,我們看到的demo都是什么樣的,是不是大部分都是聊天框?都是一個聊天框然后人機對話,人沒事和機器聊來聊去的,但是今天智能體這個demo可以大家看到屏幕上的樣子,我給它一張圖片,我說你幫我用剪映把它轉成3D,再配上一段音樂,然后再發布到抖音上,所有這些操作對于電腦上這些軟件工具的調用,都是這個大模型通過一個叫做Computer Use的技術,端對端直接完成的。
當然除了電腦以外還有手機,我說幫我訂一張明天最早回上海的機票,它能夠理解我的意圖,然后自動的打開我原手機上的12306的軟件,搜索了以后再結合它的長期記憶,對我個人偏好的理解,去選擇最適合我的航班航司出發的機場,最終直接完成訂票,所以今天的智能體不再僅僅是聊天的Chatbot,而是端到端完成復雜任務的、真干活的幫手。
講到這里是第一步:我們選擇一個更好的模型,解鎖更多的應用場景。第二步,如何從一個好的應用場景,真正把它變成一個能夠上崗的數字生產力。
我們先看一張時間表,這個時間表是不是跟我們某些同事的日常有一些類似,早上八點半起來,先對著一堆系統發會呆,先思考一下今天該干啥,九點開始把數據整理,錄入到N個不同的表格里,10點—12點連續開了三個會,記了很多會議紀要,下午一點好不容易想專注的去干會事,又被流程怎么操作、系統卡在哪里這樣的問題所打斷,這個時間表其實從系統工程的角度來看,本質上暴露了企業效率三個制約因素。
第一,我們有大量的工時被這種規則性的任務所消耗;第二,過多系統的切換導致了上下文的中斷;第三,數據的孤島制約了決策效率,所以我們第二步要做的是幫助企業構建一個數字生產力的勞務派遣站,通過源源不斷的幫我們派遣數字員工來去拓展人類的體力和精力的邊界,來去解決這些問題。
但這樣一個數字員工派遣站,并不是一堆工具和一堆智能體簡單的堆砌,而是需要一個體系化的平臺,這里我也起了一個名字叫“1+N+X”,聽起來有點晦澀,但簡單來說就是一個統一的交互入口,解決找工具難的問題以及帶上N個開箱即用的、解決企業通用痛點的智能體,比如說懂數據分析、懂營銷的數字專家,幫大家提效。
還有面向千行百業企業定制化無限多需求的一整套業務定制智能體的開發工具鏈。所以換句話說,你能夠通過一個統一入口去派遣、去雇傭一堆相互協同的智能體,能夠直接和業務系統對話跑結果,最后把結果送回到統一的工作臺上來。
首先我們為什么需要一個統一的交互入口呢?我自己的認知也在迭代,我發現今天企業的智能體數量不是太少,反而是太多了,根據我們客戶的數據顯示,現在平均一家企業投產的智能體有超過130多個,最多的已經超過600個,但是不幸的是,這些智能體交互的入口和界面都是散落在不同的業務系統里,有OA、CRM,有自己獨立的聊天框,所以雖然我們進入AI時代,但是搞IT的人都知道,過去一直想要去鏟除所謂煙囪式IT的孤島不但沒有消失,反而越變越多了,因為智能體讓開發的門檻變得極低。
所以我們的解法通過同一個操作空間,通過我們大家熟悉的A2A的協議,通過MCP的協議能夠讓不同智能體為我們所用。
我們簡單看一下智能體交互入口能夠給我們帶來三方面的便利:
第一,實現所謂多智能體的協同,忘了開會怎么辦呢?會議助手找來會議紀要,想出差,差旅助手幫我去搞定所有的行程,我不用在系統間切來切去,在同一個工作間就像一個智能前臺就可以去調度一切。
第二,和企業的業務系統打通,包括差旅系統知識庫等等,讓我們高效完成日常工作。
第三,千人千面,可能銷售關注的是客戶看板,HR關注的是招聘助手,行政可能會把待辦助手置頂,讓每一個人都有和自己最相關的智能體追著去服務。
這里有一段演示,時間關系就不展開了,我們光有交互入口還不夠,我們還要有開箱即用能幫我們解決問題企業的通才和專家,企業的通用需求有很多,比如像數據分析、客服、內容生成,但今天這里我簡單舉一個例子,企業內部各類的流程提效。
以屏幕上的例子為例,一家公司從客戶下訂單到最后產品交付往往要跨越多個系統,要通過人工去實現多個系統之間的不同串聯,耗時又耗力,但今天我們通過大模型,通過AI首先可以模仿理解人類的操作,生成可以自動化執行的工作流,從而后續能夠幫我們自動的完成工作。
比如這樣一個智能體起了一個名字叫做OAA,只需要簡單三步,第一步觀察人類操作錄屏,第二步從錄屏中自動的去學習領域的規則,生成工作流,第三步所有后續的操作可以由這個機器完全自動的執行。
除了需要通才以外,千行百業,不管是制造、傳媒、新聞行業都是需要有自己的員工自己的專才,整個智能體構成時間關系我就不贅述了。只想跟大家分享一個關鍵的認知,智能體的效果并不是一次性搭建一個靜態結果,而是像人類員工一樣,需要有持續養成、持續迭代、持續調教的過程,所謂全生命周期的管理。
大家在圖上看到全是技術的語言,我就不展開了,但是我做一個很形象的比方,比如里面第一步策略的規劃,就像我們招聘時候寫JD,先明確需要什么樣的技能和智能體,能力開發就像準備面試時候去刷題,我們要去快速的抱佛腳把這個技能建立起來。
效果的評測是實習的考核和轉正,包括應用的發布轉正以后持證上崗,線上觀測就像是對智能體日常的績效管理,我們要從多個維度通過數據驅動的方法觀測可評測智能體的效果,而品質優化就像是我們真人員工的一個晉升,通過這樣一個循環,讓這個智能體從一開始一個實習生的級別,最后蛻變成行業的業務專家。
時間關系,有一些細節就不展開了,基于“1+N+X”的體系,回到最前面的主題,我們就能夠構建企業從一開始基于需求去招聘員工,再去培養,再和真人構建成一個混合型組織的一個完整鏈路。
講到這里,“1+N+X”就講完了,但是最后還有一個One More Thing,今天跟王巍總聊天的時候提到,隨著社會的進步連寵物都在進步,寵物狗都越變越聰明,所以在AI大模型快速迭代的今天,其實人類也同樣需要進化,所以AI可能會在取代一部分職業的同時,也會催生出更多一些新的工種和角色。
所以從我的角度,AI高價值的落地不光是技術的問題,更重要也是我們對于新的人才結構和人才密度的建設,最后一頁分享給各位,我們一起共勉。
