百度智能云聯合昆侖芯、HAMi，落地雙模式算力調度方案，提升算力利用率

每日快訊

2025

11/03

16:22

評論

百度智能云混合云聯合昆侖芯、HAMi（密瓜智能發起并主導的 CNCF 開源項目），正式推出基于昆侖芯 P800 的 XPU/vXPU 雙模式算力調度方案 —— 該方案已率先在某金融客戶的昆侖芯集群中落地，為智能客服、營銷輔助等十余類 AI 業務提供兼具穩定性與靈活性的算力支撐。客戶可在同一集群內靈活調用昆侖芯 P800 的整卡 XPU 與虛擬化 vXPU 資源，讓國產算力既高效匹配業務需求，又實現資源的最大化利用。

1. XPU/vXPU 雙模式調度方案，把集群中的昆侖芯 P800 算力用透

百度智能云聯合 HAMi，基于昆侖芯 P800 構建「XPU 整卡 + vXPU 虛擬化」雙模式資源調度體系：XPU 整卡模式通過拓撲尋優調度與健康度評估，實現「多卡單任務」的最優資源調度，保障大規模訓練性能和穩定性，并避免資源碎片化；vXPU 虛擬化模式以多規格切分支持「單卡多任務」，最大化資源利用率，靈活適配推理、開發等輕量化場景。雙模式協同發力，讓昆侖芯 P800 的每一份算力「算盡其用」，為各類 AI 業務提供高效算力支撐。

XPU 整卡模式：拓撲尋優調度 + 集群健康度評估，保障大規模訓練性能與集群穩定

在多卡訓練等通信性能敏感場景中，調度策略直接決定集群長期可用性與性能穩定性。基于昆侖芯 P800 的物理拓撲特性，方案通過兩層邏輯保障整卡模式的「高性能和高穩定性」。

其一，系統自動識別昆侖芯服務器「左右側翼」物理分區，優先在單側翼內調度資源，減少跨側翼通信開銷的同時，避免資源零散占用。

其二，當多個節點都能滿足需求時，系統會評估調度前后對節點整體結構的影響，優先選擇能保持或改善拓撲規整度的節點，留存更多完整拓撲單元，降低后續調度失敗或回填導致的性能波動。

憑借「節點內拓撲尋優調度+集群內健康度評估」，運維團隊不再需要頻繁人工干預去「手動拼卡」，大模型訓練可獲得穩定通信性能，集群資源利用更緊湊。

vXPU 虛擬化模式：多粒度切分 + 顯存自動對齊，用透每一分算力，簡化管理難度

針對推理、開發測試、模型驗證等輕量化任務的細粒度算力需求，vXPU 虛擬化模式為昆侖芯 P800 打造了「算力精準切分 + 便捷管理」的解決方案。

該模式支持多任務共享單張昆侖芯 P800 顯卡，提供 1/4 卡（24GB 顯存）、1/2 卡（48GB 顯存）兩種切分規格。實際使用中，用戶僅需聲明所需顯存，系統便會自動向上匹配最優切分規格 —— 如申請 20GB 顯存時，系統自動分配 24GB 規格，無需用戶手動換算，大幅降低操作成本。

同時，為避免實例間干擾，方案引入「同規格共享」機制 —— 同一物理卡僅允許相同規格的虛擬實例共享，進一步簡化了資源隔離與管理復雜度。

UUID 精準控卡：自動化打底，人工補位，特殊場景不「卡殼」

依托整卡模式的拓撲尋優調度、vXPU 虛擬化模式的顯存自動對齊等自動化能力，日常算力調度已實現少干預甚至無干預。針對灰度測試、硬件問題復現等特殊場景，方案預留「人工調節通道」 —— 運維人員只需指定物理卡 UUID，即可直接選定或排除特定卡片。比如灰度發布新模型時，無需調動全量資源，指定部分卡片即可完成測試驗證；硬件故障復現時，也能精準定位問題卡片進行調試，無需整機下線。

通過系統自動化調度與人工手動調節的結合，面對大模型訓練、推理與開發等復雜場景，既能保障日常調度效率，又具備「因地制宜」的算力管理靈活性，輕松化解運維難題。

2. 結語

XPU/vXPU 雙模式協同調度方案在金融行業的落地，是百度智能云混合云聯合 HAMi 在國產 AI 硬件調度領域的重要實踐 —— 既驗證了「場景驅動調度策略」的技術創新價值，也展現了開源生態與企業服務結合的落地能力。

THE END

廣告、內容合作請點擊這里尋求合作

免責聲明：本文系轉載，版權歸原作者所有；旨在傳遞信息，不代表砍柴網的觀點和立場。

久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

百度智能云聯合昆侖芯、HAMi，落地雙模式算力調度方案，提升算力利用率

相關熱點

最新文章

相關推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

關注我們