11月5日,由微博與新浪新聞聯(lián)合主辦的“新浪新聞·2025探索大會”在北京落幕。在大會主題分享環(huán)節(jié),火山引擎副總裁張鑫進行了題為《智能體“1+N+X”一站式工作站從生產(chǎn)工具到生產(chǎn)力上崗》的演講。

火山引擎副總裁張鑫-主題演講
以下是演講實錄,內(nèi)容經(jīng)編輯略有刪減:
每次遇到像大模型這樣一個技術浪潮的時候,人們總是喜歡用一些大的跨時代性的詞匯描述和贊美。比如有人把大模型稱為第四次工業(yè)革命,有人把它稱為新時代的水電煤,但是我更傾向于用一個一個里程碑式的時刻來去勾畫一些技術演進的路徑。
比如從ChatGPT發(fā)布至今,先后經(jīng)歷了蘋果時刻,因為我們?nèi)藱C交互的方式發(fā)生了本質(zhì)的變化,從圖形界面變成自然語言交互,甚至開發(fā)方式也發(fā)生最根本的變化,自然語言成為AI時代新的源代碼。
隨后豆包的出現(xiàn)在短時間內(nèi)迅速積累上億的用戶,又給我們帶來了AI的普惠時刻,包括到了今年春節(jié)DeepSeek的開源,又通過開源開放的方式推動整個行業(yè)技術進步。
當然創(chuàng)新腳步并沒有停止,反而在加速。比如像Deep Research的出現(xiàn),又讓很多人驚呼,說AI時代這個智能體時刻真的到來,但我覺得更重要的一個問題是我們?nèi)绾稳ヮA判下一個時刻,有人還是用了一些很宏大的詞匯,比如AGI,AI達到人類的水平,甚至是ASI超級人工智能,AI甚至能超越人類的智力。
這些從我的角度我覺得道路還比較漫長,但我已經(jīng)看見在發(fā)生的一個時刻,AI直接能夠作為數(shù)字勞動力直接上崗的時刻,所以前面幾位專家老師也提出了一個共同的問題,AI可能會讓哪些人先失業(yè)?剛才聊了很多,從我的角度來講,在如下三個領域里,我看到AI和智能體是最能夠成為數(shù)字勞動力直接上崗的領域,哪三個領域?
第一,人力密集型的領域,需要大量重復勞動,人員眾多,甚至有的時候水平參差不齊,需要大量培訓的場景,比如像客服、審核、標注,因為智能體本質(zhì)上拓展就是人類體力和時間的邊界。
第二,知識密集型場景,對知識要求非常高,但是老專家又非常稀缺,比如說我們的咨詢、法務、醫(yī)療,智能體本質(zhì)上解決的是知識分發(fā)的問題。
第三,IT密集型場景,比如AI Coding,包括網(wǎng)絡運維,因為在這樣一些領域天然就是數(shù)字原生,所以通過AI和智能體可以更進一步提升效率。當然理論很美好,講到這里有相關的聽眾可能也會引起一段焦慮,但是我覺得現(xiàn)在還不必焦慮。
真正打造這樣一個智能體數(shù)字員工,理論是很美好的,在座有很多技術專家,大家看過非常多類似的架構圖,什么是一個Agent?又能感知、又能規(guī)劃、又能反思、又能和環(huán)境交互,但是它真實落地情況是什么樣呢?
時間關系,我今天只分享兩步--當然可能有很多因素。
第一步,從好的模型到好的應用開始。因為我們越來越認識到,模型能力的上限其實就能夠框定應用效果的下限;模型能力的提升,會解鎖更多的上層應用的爆發(fā)。我們的豆包大模型其實是最好的一個例子,在過去從2024年5月份發(fā)布到今天,短短一年多的時間里,Tokens調(diào)用量增長253倍,我覺得它成為了AI時代新的科技密度和智商密度的一個衡量單位。
模型能力的提升,為什么能帶來更好的應用?本質(zhì)上能給我們解鎖更多好的應用場景,因為今天咱們大會的主題是探索,所以我們也往前探索一下,分享我們認為至少在未來一年之內(nèi),模型能力能給我們解鎖哪些新的場景。
第一個場景,融合多模態(tài)的深度思考能力。過去當大模型剛出現(xiàn)的時候,往往把大模型這三個字和大語言模型五個字劃等號,如果我們仔細想,人類信息接觸的方式,它不光是語言,有視覺和語音,甚至再暢想一下,甚至可能文本的token只是技術發(fā)展上的偶然,所以我們的深度思考不光能基于文字來進行,還要能基于我們所看到的、聽到的去進行思考。
舉一個例子,在座確實也有很多影視行業(yè)的專家,比如過去在網(wǎng)上我自己也非常喜歡玩的游戲就是找穿幫,我們經(jīng)常有一些紕漏的地方會造成一些穿幫的鏡頭,但是今天結(jié)合大模型的視覺理解能力,比如給定一張?zhí)囟ǖ谋尘昂驮O置,這是一個古代的背景,從圖片里我們看布景里有沒有一些穿幫鏡頭,我自己當時找其實是花了一些時間,但是結(jié)合今天大模型的理解能力,能迅速發(fā)現(xiàn)里面右下角桌上的礦泉水瓶是不符合這個時代背景。
甚至看一個更復雜的例子,給定一個80年代末北方一個很貧窮的家庭房廳的背景,讓大模型判斷,說在整個布景里面有哪些物品是不符合這個時代的人設,大模型經(jīng)過一頓分析以后,它首先能理解貧窮這兩個字的含義,發(fā)現(xiàn)布景里面的縫紉機是不應該出現(xiàn)在80年代末一個貧窮的家庭里,甚至更細的它能發(fā)現(xiàn)里面的暖水壺和臉盆都過于嶄新,不符合背景的設置。
從視覺里面找穿幫找出規(guī)律漏洞以外,甚至可以做基于多模態(tài)的搜索,我經(jīng)常自己會看到一個很好的電影片斷甚至一張圖片,很想知道原片出自于哪里,今天的搜索不光基于文字,直接可以通過我們的文字、視頻、圖像都統(tǒng)一的映射到同一個向量空間里,去實現(xiàn)所謂多模態(tài)混合檢索。比如給一張米老鼠彈鋼琴的截圖,就能從視頻影視資料庫里面找到對應的一些影片。
當然,第一個趨勢其實更多是從多模態(tài)里提煉出信息,我們還需要的第二個信息傳播維度是反向的:給定一個信息,把它變成多模態(tài)的一種表達。第一個當然就是對于圖像的生成,這里不用我多講了,有圖有真相,我們可以看到,今天以豆包為例,視頻是圖片生成的模型可以支持不管是圖片創(chuàng)作還是編輯,都能非常輕松的駕馭。像我們剛才提到的,可以讓非技術人員大家都能實現(xiàn)專業(yè)級的圖片創(chuàng)作。
除了圖片之外,其實視頻能夠給我們帶來更高的信息密度、更沉浸式的體驗以及更加直觀的感染力,所以我們看一段視頻,基于豆包剛才我們講的圖像編輯模型和視頻生成的模型,我們完全可以生成一部AI的這樣一部影片。
可以看到整個畫質(zhì)更加高清,同時可以多支持不同的運鏡,保證多個故事之間邏輯的連貫性和一致性,包括支持不同的運鏡,還能在這個視頻里結(jié)合我們想要的經(jīng)典元素,讓非科班的創(chuàng)作者都能快速去實現(xiàn)自己的導演夢。
正是基于這樣的技術能力,今年9月份,火山引擎也攜手上海電影和剪映,參加了今年第30屆的釜山電影節(jié),并且舉辦了AI未來影像的峰會,在會上還展示了五個AI的短片,所以確實像龔老師說的,我覺得通過技術的手段能夠讓人人成為創(chuàng)作者的夢想能夠照進現(xiàn)實,讓大家都能夠通過光影去表達自己的心聲。
當然多模態(tài)的領域除了能生成圖片視覺以外,其實在聽覺語音上,今天的大模型也給我們帶來了非常多的突破,我相信大家對AI合成聲音并不陌生,但可是過去可能沒有太多的愛,因為AI的味道太濃了,但是今天的這個大模型不光可以以非常少的樣本量去進行人聲的模擬復刻,甚至能夠用更加流暢、更加自然的語音語調(diào)去播報,我們現(xiàn)在可以做一個小的測試,大家可以聽一下在下面這個播客里,哪一個聲音是來自于真人,哪一個聲音是來自于AI。
大家聽到語氣還是很自然的,有沒有嘉賓想?yún)⑴c一下,哪個是真人,哪個是AI?
我們可以看到,其實從大家的遲疑里,真人和AI的聲音已經(jīng)很難分辨了,所以從語音的角度,甚至可以宣布AI已經(jīng)通過了圖靈測試,因為已經(jīng)很難分辨哪個是真人、哪個是機器了。
基于趨勢一的理解和趨勢二的生成,第三個趨勢是大模型真的能下場干活了,但是講到智能體,大家可以回想一下,在2025年之前,我們看到的demo都是什么樣的,是不是大部分都是聊天框?都是一個聊天框然后人機對話,人沒事和機器聊來聊去的,但是今天智能體這個demo可以大家看到屏幕上的樣子,我給它一張圖片,我說你幫我用剪映把它轉(zhuǎn)成3D,再配上一段音樂,然后再發(fā)布到抖音上,所有這些操作對于電腦上這些軟件工具的調(diào)用,都是這個大模型通過一個叫做Computer Use的技術,端對端直接完成的。
當然除了電腦以外還有手機,我說幫我訂一張明天最早回上海的機票,它能夠理解我的意圖,然后自動的打開我原手機上的12306的軟件,搜索了以后再結(jié)合它的長期記憶,對我個人偏好的理解,去選擇最適合我的航班航司出發(fā)的機場,最終直接完成訂票,所以今天的智能體不再僅僅是聊天的Chatbot,而是端到端完成復雜任務的、真干活的幫手。
講到這里是第一步:我們選擇一個更好的模型,解鎖更多的應用場景。第二步,如何從一個好的應用場景,真正把它變成一個能夠上崗的數(shù)字生產(chǎn)力。
我們先看一張時間表,這個時間表是不是跟我們某些同事的日常有一些類似,早上八點半起來,先對著一堆系統(tǒng)發(fā)會呆,先思考一下今天該干啥,九點開始把數(shù)據(jù)整理,錄入到N個不同的表格里,10點—12點連續(xù)開了三個會,記了很多會議紀要,下午一點好不容易想專注的去干會事,又被流程怎么操作、系統(tǒng)卡在哪里這樣的問題所打斷,這個時間表其實從系統(tǒng)工程的角度來看,本質(zhì)上暴露了企業(yè)效率三個制約因素。
第一,我們有大量的工時被這種規(guī)則性的任務所消耗;第二,過多系統(tǒng)的切換導致了上下文的中斷;第三,數(shù)據(jù)的孤島制約了決策效率,所以我們第二步要做的是幫助企業(yè)構建一個數(shù)字生產(chǎn)力的勞務派遣站,通過源源不斷的幫我們派遣數(shù)字員工來去拓展人類的體力和精力的邊界,來去解決這些問題。
但這樣一個數(shù)字員工派遣站,并不是一堆工具和一堆智能體簡單的堆砌,而是需要一個體系化的平臺,這里我也起了一個名字叫“1+N+X”,聽起來有點晦澀,但簡單來說就是一個統(tǒng)一的交互入口,解決找工具難的問題以及帶上N個開箱即用的、解決企業(yè)通用痛點的智能體,比如說懂數(shù)據(jù)分析、懂營銷的數(shù)字專家,幫大家提效。
還有面向千行百業(yè)企業(yè)定制化無限多需求的一整套業(yè)務定制智能體的開發(fā)工具鏈。所以換句話說,你能夠通過一個統(tǒng)一入口去派遣、去雇傭一堆相互協(xié)同的智能體,能夠直接和業(yè)務系統(tǒng)對話跑結(jié)果,最后把結(jié)果送回到統(tǒng)一的工作臺上來。
首先我們?yōu)槭裁葱枰粋€統(tǒng)一的交互入口呢?我自己的認知也在迭代,我發(fā)現(xiàn)今天企業(yè)的智能體數(shù)量不是太少,反而是太多了,根據(jù)我們客戶的數(shù)據(jù)顯示,現(xiàn)在平均一家企業(yè)投產(chǎn)的智能體有超過130多個,最多的已經(jīng)超過600個,但是不幸的是,這些智能體交互的入口和界面都是散落在不同的業(yè)務系統(tǒng)里,有OA、CRM,有自己獨立的聊天框,所以雖然我們進入AI時代,但是搞IT的人都知道,過去一直想要去鏟除所謂煙囪式IT的孤島不但沒有消失,反而越變越多了,因為智能體讓開發(fā)的門檻變得極低。
所以我們的解法通過同一個操作空間,通過我們大家熟悉的A2A的協(xié)議,通過MCP的協(xié)議能夠讓不同智能體為我們所用。
我們簡單看一下智能體交互入口能夠給我們帶來三方面的便利:
第一,實現(xiàn)所謂多智能體的協(xié)同,忘了開會怎么辦呢?會議助手找來會議紀要,想出差,差旅助手幫我去搞定所有的行程,我不用在系統(tǒng)間切來切去,在同一個工作間就像一個智能前臺就可以去調(diào)度一切。
第二,和企業(yè)的業(yè)務系統(tǒng)打通,包括差旅系統(tǒng)知識庫等等,讓我們高效完成日常工作。
第三,千人千面,可能銷售關注的是客戶看板,HR關注的是招聘助手,行政可能會把待辦助手置頂,讓每一個人都有和自己最相關的智能體追著去服務。
這里有一段演示,時間關系就不展開了,我們光有交互入口還不夠,我們還要有開箱即用能幫我們解決問題企業(yè)的通才和專家,企業(yè)的通用需求有很多,比如像數(shù)據(jù)分析、客服、內(nèi)容生成,但今天這里我簡單舉一個例子,企業(yè)內(nèi)部各類的流程提效。
以屏幕上的例子為例,一家公司從客戶下訂單到最后產(chǎn)品交付往往要跨越多個系統(tǒng),要通過人工去實現(xiàn)多個系統(tǒng)之間的不同串聯(lián),耗時又耗力,但今天我們通過大模型,通過AI首先可以模仿理解人類的操作,生成可以自動化執(zhí)行的工作流,從而后續(xù)能夠幫我們自動的完成工作。
比如這樣一個智能體起了一個名字叫做OAA,只需要簡單三步,第一步觀察人類操作錄屏,第二步從錄屏中自動的去學習領域的規(guī)則,生成工作流,第三步所有后續(xù)的操作可以由這個機器完全自動的執(zhí)行。
除了需要通才以外,千行百業(yè),不管是制造、傳媒、新聞行業(yè)都是需要有自己的員工自己的專才,整個智能體構成時間關系我就不贅述了。只想跟大家分享一個關鍵的認知,智能體的效果并不是一次性搭建一個靜態(tài)結(jié)果,而是像人類員工一樣,需要有持續(xù)養(yǎng)成、持續(xù)迭代、持續(xù)調(diào)教的過程,所謂全生命周期的管理。
大家在圖上看到全是技術的語言,我就不展開了,但是我做一個很形象的比方,比如里面第一步策略的規(guī)劃,就像我們招聘時候?qū)慗D,先明確需要什么樣的技能和智能體,能力開發(fā)就像準備面試時候去刷題,我們要去快速的抱佛腳把這個技能建立起來。
效果的評測是實習的考核和轉(zhuǎn)正,包括應用的發(fā)布轉(zhuǎn)正以后持證上崗,線上觀測就像是對智能體日常的績效管理,我們要從多個維度通過數(shù)據(jù)驅(qū)動的方法觀測可評測智能體的效果,而品質(zhì)優(yōu)化就像是我們真人員工的一個晉升,通過這樣一個循環(huán),讓這個智能體從一開始一個實習生的級別,最后蛻變成行業(yè)的業(yè)務專家。
時間關系,有一些細節(jié)就不展開了,基于“1+N+X”的體系,回到最前面的主題,我們就能夠構建企業(yè)從一開始基于需求去招聘員工,再去培養(yǎng),再和真人構建成一個混合型組織的一個完整鏈路。
講到這里,“1+N+X”就講完了,但是最后還有一個One More Thing,今天跟王巍總聊天的時候提到,隨著社會的進步連寵物都在進步,寵物狗都越變越聰明,所以在AI大模型快速迭代的今天,其實人類也同樣需要進化,所以AI可能會在取代一部分職業(yè)的同時,也會催生出更多一些新的工種和角色。
所以從我的角度,AI高價值的落地不光是技術的問題,更重要也是我們對于新的人才結(jié)構和人才密度的建設,最后一頁分享給各位,我們一起共勉。
