京東云全新發(fā)布vGPU池化方案
2023-08-16 11:43
近日消息,京東云全新發(fā)布vGPU池化方案,提供一站式GPU算力池化解決方案,GPU利用率最高提升70%,大幅降低大模型推理成本。
京東云自主研發(fā)的混合多云操作系統(tǒng)云艦,在原有支持混合多云CPU算力池化能力基礎(chǔ)上,針對大模型訓練所需的泛算力池化能力,進一步增加了針對AI應(yīng)用所需的調(diào)度管理能力,包括卡管理、節(jié)點管理、異構(gòu)資源調(diào)度管理等,為包括大模型訓練在內(nèi)的多種AI應(yīng)用,提供一站式算力池化解決方案,從而全面提升資源利用率。
具體而言,包括四大核心優(yōu)勢:支持任意比例切分和動態(tài)調(diào)整機制,可實現(xiàn)按顯卡算力、顯存做細粒度切分,一張物理卡可供多個容器使用,與整卡算力相比,性能衰減在2%以內(nèi);支持靈活的配額管理,按顯卡型號/label 配額,有效保障資源按需分配,提升推理穩(wěn)定性和訓練性能;適配主流CUDA版本和不同GPU芯片適配,支持TensorFlows、Pytorch等行業(yè)主流的AI訓練框架;支持節(jié)點虛擬分組和節(jié)點組指定應(yīng)用使用,全面提升大模型訓練效率。
截自京東云公眾號
針對使用大模型算力的成本和效率問題,京東云vGPU池化解決方案,支持本地+遠端的GPU資源調(diào)用,基于多活能力提升訓練任務(wù)可靠性,并與現(xiàn)有云平臺打通,實現(xiàn)CPU、GPU云算網(wǎng)協(xié)同,并在京東自身大模型場景進行打磨,大幅降低大模型推理成本。
在使用場景中,開發(fā)者可以根據(jù)卡型號申請資源,按算力和顯存切分,統(tǒng)一由控制器根據(jù)用戶指定的調(diào)度策略調(diào)整。僅在訓練、微調(diào)和推理任務(wù)啟動時進行動態(tài)分配,在任務(wù)結(jié)束即可以釋放,支持多任務(wù)算力隔離和任務(wù)冷啟動。
從實踐效果看,通過GPU異構(gòu)資源池化,AI運行效率顯著提高,整體GPU利用率提升70%。結(jié)合任意切分和按需分配,在同等GPU數(shù)量的前提下,實現(xiàn)了數(shù)倍業(yè)務(wù)量擴展和資源共享,降低了硬件采購成本,使用更少的AI芯片支撐了更多的訓練和推理任務(wù)。
圖源:京東云公眾號
據(jù)悉,在7月13日舉行的2023京東全球科技探索者大會暨京東云峰會上,京東全面推出言犀大模型、言犀AI開發(fā)計算平臺、升級支撐大模型落地行業(yè)的產(chǎn)品及解決方案。
據(jù)介紹,京東大模型“源于產(chǎn)業(yè)、服務(wù)產(chǎn)業(yè)”,融合70%通用數(shù)據(jù)與30%數(shù)智供應(yīng)鏈原生數(shù)據(jù),具有“更高產(chǎn)業(yè)屬性、更強泛化能力、更多安全保障”的優(yōu)勢,致力于深入零售、物流、金融、健康、政務(wù)等知識密集型、任務(wù)型產(chǎn)業(yè)場景,解決真實產(chǎn)業(yè)問題。
京東制定了大模型“三步走”的明確規(guī)劃。目前,京東云已經(jīng)基于內(nèi)部實踐構(gòu)建了通用大模型;到今年年底這段時間,京東將經(jīng)由高復雜場景大規(guī)模錘煉,迭代出扎實的產(chǎn)業(yè)服務(wù);預(yù)計在2024年初,會將大模型能力向外部嚴肅商業(yè)場景開放。
圖源:京東云公眾號
來源:電商報