剛剛過去的1024程序員節(jié),小紅書Red Academy和小紅書科技發(fā)起了一場直播,在這場直播里,小紅書技術副總裁凱奇、小紅書語音模型技術負責人風龍,攜手Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf,以最近流行的AMA(Ask Me Anything)形式,進行了一場關于技術、AI與未來的深度對談。
這場對談圍繞三大核心觀點展開:
AI Coding正成為基礎能力;
開源是技術加速發(fā)展的核心引擎;
實現有“活人感”的AGI路徑清晰但仍需攻克諸多難題。
從這三個觀點出發(fā),三位嘉賓關于以下幾個話題進行了討論和分享:
開源與閉源:三位嘉賓一致認為開源是推動技術前進的強大引擎。小紅書正投身其中,從文本模型、多模態(tài)模型到FireRed系列語音模型,初衷是為讓更多開發(fā)者和中小企業(yè)能共享技術紅利。
AGI與未來:通用人工智能將會到來,但發(fā)展路徑仍有挑戰(zhàn),例如在創(chuàng)造力、復雜環(huán)境感知和數據等方面仍有瓶頸。
如何讓AI更有“人味”:凱奇分享了小紅書引入“人文訓練師”的實踐,致力于讓AI的交互更自然、更貼心,真正融入小紅書這個充滿“活人感”的社區(qū)。
AI時代的個人能力:技術人的核心競爭力正轉向“定義問題”和“框架性解決”的能力;AI不僅是效率神器,也讓非技術背景的人擁有了“指揮”計算機實現想法的能力。

以下是直播對話摘錄:
Q: 怎么看大模型時代的開源和閉源?
Thomas Wolf:開源和閉源差距在縮小,中國在這方面比較領先。現在也發(fā)現,很多其他國家的人會開始從一個開源模型著手。開源能打造一個圍繞模型的社群,讓更多人使用,更高效地幫助他們。閉源就是需要更多的一些時間來去開發(fā)出一些好的模型。
風龍:整個的開源其實是推著技術往前走的,推著技術不斷的往下發(fā)展。開源才是動用了大家的力量,眾人眾人拾柴火焰高。語音技術發(fā)展經歷開源工具如HTK、Kaldi、Wenet、FireRed等,推動技術前進。閉源對商業(yè)公司無可厚非,但可能是暫時性選擇。
凱奇:AI開源與代碼開源還挺不同的,更關注模型權重和制作過程公開。開源降低社會運用AI成本,互幫互助,整體上降低了整個社會去運用AI的成本。
Q: 小紅書做了哪些開源?為什么這么選擇?
凱奇:今年6月小紅書開源了文本模型1.0版本,是hi lab第一個MoE模型。8月開源多模態(tài)模型,性能對標Gemini和Seed。開源dots OCR模型,在hugging face熱門榜排第4。
風龍:語音模型方面,我們開源了在50多個benchmark綜合排名第一的大模型語音識別系統(tǒng)FirRedASR;開源了面向對話及長播客生成的大模型語音合成系統(tǒng)FireRedTTS業(yè)務,在播客生成開源領域達到了sota的效果;也首次開源了一套完整的可私有化部署的大模型人感語音交互系統(tǒng)。這些模型都受到了很多好評。我們想讓中小型公司和獨立開發(fā)者,也能享受這種玩大模型的樂趣,所以我們會做一些大模型,打破相對的技術壟斷。我們從社區(qū)里面汲取了營養(yǎng)。我們也覺得需要把技術公開出來,一方面是聽取社區(qū)給模型的反饋,來知道模型到底做得怎么樣。

Q: 怎么看AGI的實現和想象,通往AGI上有哪些瓶頸?
Thomas Wolf:AGI不會立刻實現,會有多功能、全方位的提升。未來應用包括機器人、大語言模型、語音識別。AGI也能夠創(chuàng)建一些我們之前沒概念的東西,比如新游戲、新體驗。同時能夠打造全新的科學發(fā)展,發(fā)明新科學。
AGI的一個瓶頸是模型缺乏創(chuàng)造力。當你有一個問題時,它們非常擅長解決問題,但要求它們發(fā)明一個新問題時,例如想在科學上取得重大突破時,就需要找到正確的問題來提出,而LLM模型目前非常不擅長提出好問題的。
風龍:5-10年內可能看到曙光,但路上還有種種曲折,但如果要真的實現電影《Her》里面的人工智能想象,還需要解決非常多的問題 比如硬件、甚至一個簡單的藍牙數據傳輸穩(wěn)定性都需要持續(xù)提升
凱奇:關鍵轉折點是AI能否改進自己。如果可以做到,只要有算力,就可以不停的自我改進,智力增長會非常非常的快。障礙有context bottleneck和非智力因素瓶頸。
Q:你怎么看技術進展的速度?是在變慢嗎?
Thomas Wolf:可能有一點。我想很多人對最近的模型有點失望。幸好有新一波的推理模型提供了新范式。但我們構建的AI仍然是非常聽話的學生,它們按照我們的要求做,但對應該做什么幾乎沒有好想法,所以仍非常需要人類來指明方向。至少在當前,需要人來給出要解決的問題,我們需要給出前進方向,給出要做什么的創(chuàng)造性想法。所以我建議,要讓知道自己該做什么的人使用這些模型,這樣就能很好地理解它。

Q: 在技術產品中如何保持人情味?如何讓AI保持人感?
凱奇:當前AI回答有時候會有點冷冰冰、缺乏同理心。小紅書是大家稱之為一個有“活人感”的社區(qū),所以在小紅書用AI的時候,我們也希望這個AI也是更有活人感的。會通過后訓練和RL算法調整行為,用人文訓練師教會AI更有人感回答。
Thomas Wolf:情感非常重要,需要更好數據來做情感輸出,當前的瓶頸是數據量不夠。可以做的是:看待AI答案要有批判性,同時也要評估AI的錯誤率。
風龍:語音模型中會加入情緒感知和環(huán)境音感知生成情感反饋語音。我們會分析目前這句話到底有沒有表達出情緒,是開心的還是有一點悲傷的?還是說有一點憤怒?我們也有能主動感知對話中用戶情緒的TTS,如果用戶當下很難過,那AI回復的語音就會帶有安慰的情感。
Q:對于個人或團隊,推薦哪些AI小項目方向,如何構建壁壘?
凱奇:發(fā)揮專業(yè)領域知識,解決context bottleneck,挑選合適context喂給AI。怎么挑選哪些context扔給它,這個是很重要的。
Thomas Wolf:這是一個高度數據驅動的世界和領域。所以第一步始終應該是:嘗試為我們想要衡量的東西建立一個良好的評估標準。有了標準然后才能看清你想朝哪個方向發(fā)展,進入哪個領域,甚至決定是否應該使用AI。
Q: 對于非技術同學,在AI浪潮下有什么建議?
風龍:AI降低實現產品門檻,非技術同學也可以一個人做產品。人人都真的可以一個人做產品。
凱奇:產品同學多了一個強大武器,需學習AI技術邊界,了解prompt engineering、fine tune等手段。
Q: 怎么使用AI coding提效,怎么看待AI coding的發(fā)展?
風龍:在語音研究工作中需要大量測試網頁。之前的網頁都由語音研究員手寫,有了AI coding工具后,這種寫前端的工作完全可以用現成工具完成,大大節(jié)省時間。
凱奇:寫demo程序時,用AI做refactor或熟悉API,可以直接扔文檔讓它寫代碼,非常提效。AI coding讓非程序員也能操縱計算機達成目的。AI coding還處于早期階段,現在還沒那么好,但未來在程序架構迭代和運維方面會更強。

Q: AI浪潮下,技術人的變與不變?
風龍:技術人還要找到核心競爭力,AI coding只是工具箱中的一個工具??吹揭粋€大的應用問題后,不變的是要想怎么去拆解,怎么用工具箱里面工具把它做好。
凱奇:未來世界上只有會用AI的人和不會用AI的人兩種,技術同學在會用AI這塊是很有優(yōu)勢的。技術人需提升通用問題解決能力和產品sense,發(fā)現和定義問題比具體怎么做更重要。
Q: 學習新技術有什么好的方法和建議?
風龍:很多時候我們覺得可能要自己ready了再去做一件事,但是往往我們其實就是learning by doing。跟蹤最新論文、與同行交流、公司內部討論。
凱奇:用AI陪看論文非常提效,能很快幫我推導公式和分析邏輯,就能很方便地理解公式。Notebook LM可以聽論文寫概要。

Q: 最近兩個月,小紅書里刮起了AMA風,有什么體驗和有趣發(fā)現?
Thomas wolf:我是首次參加 AMA,很多人來問我應該學什么專業(yè),應該從事什么樣的工作,我覺得這個方式是非常好的一個方式,能讓很多行業(yè)里非常優(yōu)秀的人所聚集在一起,直接建立連接。
凱奇:在主頁上刷到了很多AMA的筆記,過去小紅書這個產品給大家的印象可能更多是偏生活向的,但這次AMA,在科技領域的興趣圈層也是有很好的爆發(fā)。我的一些朋友告訴我,他們現在都是在小紅書看論文,我覺得小紅書作為生活興趣社區(qū),的確正在變得越來越廣大。
風龍:我發(fā)了第一篇AMA筆記后,收到500多條評論問語音相關的問題,其中有人問我為什么社區(qū)里有這么多AMA帖子。我回答的是:因為優(yōu)秀的人總會和優(yōu)秀的人相遇。
*小紅書科技薯在今年9月策劃發(fā)起了AMA(Ask me anything)活動,這一玩法在小紅書上快速發(fā)酵——許多知名AI產品創(chuàng)業(yè)者、大廠負責人、高校教授等科技大咖紛紛在小紅書上發(fā)布“Ask me anything”的筆記,邀請用戶向自己提問,并積極在評論區(qū)互動、對話。

Q:如果回到30歲,會給自己什么建議?
Thomas Wolf:十年前,2015年那時我創(chuàng)辦了Hugging Face。我認為那是個好主意。所以我會說,去做你打算做的事,探索你所熱愛的。
風龍:如果回到30歲的時候,我會選擇在博士畢業(yè)后直接加入小紅書,享受挑戰(zhàn)和攀登珠峰的經歷。
凱奇:要搞AI。
