欧洲三级九九九精品|99热超碰在这里的都是精品|国产91色在线|日韩|黄片在线视频观看|AAAA级毛片日本无码色情片|黄色欧洲AAAAA级别|国产视频中文字幕第一页|亚欧一二级无码欧美成a|日本国产高清无码免费|成人电影一区一级欧美特黄

新聞資訊

了解金山云最新資訊

新聞資訊 > 金山云星流訓推平臺重磅發(fā)布
金山云星流訓推平臺重磅發(fā)布

2025-06-03 15:20:00

近日,金山云星流訓推平臺正式發(fā)布。平臺旨在為用戶提供一站式訓推任務管理平臺,保障訓推任務穩(wěn)定高效運行,提升算力使用效率,能為機器學習場景開發(fā)者與運維人員提供云原生AI算力與全流程管理能力支持。

平臺由基礎資源管理、算力管理工具、訓推任務管理、資產與權限管理等模塊構成,包括任務編排調度、任務可觀測性等6大核心特性,適用于模型開發(fā)與訓練、高并發(fā)模型在線服務等場景。


6大核心優(yōu)勢:

? 一站式全流程管理能力:提供從模型開發(fā)、訓練到推理的完整生命周期管理,能打通基礎資源調度、算力優(yōu)化、任務編排、權限管控全鏈路,通過降低多模塊協同復雜度,實現“開箱即用”的AI開發(fā)體驗;


? 異構資源高效調度:通過動態(tài)任務編排算法與算力管理工具,平臺能智能匹配異構算力資源與任務需求,保障GPU資源利用率,顯著降低算力閑置成本;


? 高性能存儲與網絡加速:采用集成分布式存儲系統與高速RDMA網絡架構,可實現訓練數據高速提取、模型參數高吞吐傳輸,支撐大規(guī)模分布式訓練任務并行效率提升;


? 任務全生命周期可觀測:任務級可觀測能力覆蓋開發(fā)、訓練、推理全流程,結合監(jiān)控、日志、事件信息及硬件維度監(jiān)控指標,快速定位異常點,縮短排障時間;


? 智能運維保障穩(wěn)定性:GPU故障自愈技術結合任務可觀測性設計,實時監(jiān)控硬件健康狀態(tài)與任務進程,自動觸發(fā)故障遷移與任務重調度,降低算力中斷風險,保障長周期訓練任務穩(wěn)定運行;


? 企業(yè)級安全管控體系:深度整合資產權限管理與訪問控制體系,提供細粒度角色權限控制、任務隔離及資產隔離功能,滿足多用戶權限控制場景的合規(guī)性要求。


2大應用場景 :

? 模型開發(fā)與訓練:通過KPFS高性能文件存儲、RDMA網絡拓撲調度和動態(tài)資源編排,解決海量數據數據加載、跨節(jié)點通信及異構算力調度難題,保障分布式訓練效率與連續(xù)性;


? 高并發(fā)模型在線服務:基于預置/自定義模型跨機部署、多副本彈性擴縮容與冗余設計,突破單機算力瓶頸,實現高并發(fā)低延遲響應與高可用服務保障。