百度智能云混合云聯合昆侖芯、HAMi(密瓜智能發起并主導的 CNCF 開源項目),正式推出基于昆侖芯 P800 的 XPU/vXPU 雙模式算力調度方案 —— 該方案已率先在某金融客戶的昆侖芯集群中落地,為智能客服、營銷輔助等十余類 AI 業務提供兼具穩定性與靈活性的算力支撐。客戶可在同一集群內靈活調用昆侖芯 P800 的整卡 XPU 與虛擬化 vXPU 資源,讓國產算力既高效匹配業務需求,又實現資源的最大化利用。

1. XPU/vXPU 雙模式調度方案,把集群中的昆侖芯 P800 算力用透
百度智能云聯合 HAMi,基于昆侖芯 P800 構建「XPU 整卡 + vXPU 虛擬化」雙模式資源調度體系:XPU 整卡模式通過拓撲尋優調度與健康度評估,實現「多卡單任務」的最優資源調度,保障大規模訓練性能和穩定性,并避免資源碎片化;vXPU 虛擬化模式以多規格切分支持「單卡多任務」,最大化資源利用率,靈活適配推理、開發等輕量化場景。雙模式協同發力,讓昆侖芯 P800 的每一份算力「算盡其用」,為各類 AI 業務提供高效算力支撐。
XPU 整卡模式:拓撲尋優調度 + 集群健康度評估,保障大規模訓練性能與集群穩定
在多卡訓練等通信性能敏感場景中,調度策略直接決定集群長期可用性與性能穩定性。基于昆侖芯 P800 的物理拓撲特性,方案通過兩層邏輯保障整卡模式的「高性能和高穩定性」。
其一,系統自動識別昆侖芯服務器「左右側翼」物理分區,優先在單側翼內調度資源,減少跨側翼通信開銷的同時,避免資源零散占用。
其二,當多個節點都能滿足需求時,系統會評估調度前后對節點整體結構的影響,優先選擇能保持或改善拓撲規整度的節點,留存更多完整拓撲單元,降低后續調度失敗或回填導致的性能波動。
憑借「節點內拓撲尋優調度+集群內健康度評估」,運維團隊不再需要頻繁人工干預去「手動拼卡」,大模型訓練可獲得穩定通信性能,集群資源利用更緊湊。
vXPU 虛擬化模式:多粒度切分 + 顯存自動對齊,用透每一分算力,簡化管理難度
針對推理、開發測試、模型驗證等輕量化任務的細粒度算力需求,vXPU 虛擬化模式為昆侖芯 P800 打造了「算力精準切分 + 便捷管理」的解決方案。
該模式支持多任務共享單張昆侖芯 P800 顯卡,提供 1/4 卡(24GB 顯存)、1/2 卡(48GB 顯存)兩種切分規格。實際使用中,用戶僅需聲明所需顯存,系統便會自動向上匹配最優切分規格 —— 如申請 20GB 顯存時,系統自動分配 24GB 規格,無需用戶手動換算,大幅降低操作成本。
同時,為避免實例間干擾,方案引入「同規格共享」機制 —— 同一物理卡僅允許相同規格的虛擬實例共享,進一步簡化了資源隔離與管理復雜度。
UUID 精準控卡:自動化打底,人工補位,特殊場景不「卡殼」
依托整卡模式的拓撲尋優調度、vXPU 虛擬化模式的顯存自動對齊等自動化能力,日常算力調度已實現少干預甚至無干預。針對灰度測試、硬件問題復現等特殊場景,方案預留「人工調節通道」 —— 運維人員只需指定物理卡 UUID,即可直接選定或排除特定卡片。比如灰度發布新模型時,無需調動全量資源,指定部分卡片即可完成測試驗證;硬件故障復現時,也能精準定位問題卡片進行調試,無需整機下線。
通過系統自動化調度與人工手動調節的結合,面對大模型訓練、推理與開發等復雜場景,既能保障日常調度效率,又具備「因地制宜」的算力管理靈活性,輕松化解運維難題。
2. 結語
XPU/vXPU 雙模式協同調度方案在金融行業的落地,是百度智能云混合云聯合 HAMi 在國產 AI 硬件調度領域的重要實踐 —— 既驗證了「場景驅動調度策略」的技術創新價值,也展現了開源生態與企業服務結合的落地能力。
