飛象網(wǎng)訊(易歡)4月23日消息,在今天舉辦的“2025云網(wǎng)智聯(lián)大會”上,SNAI推委會榮譽主席、原中國電信科技委主任韋樂平分享了對智算拉遠的思考。
談及大模型訓(xùn)練智算拉遠的市場需求,韋樂平坦言,可以以網(wǎng)補算,提升閑散智算中心算力資源利用率。“面對大批分散部署、利用率很低的小規(guī)模智算中心,若能通過網(wǎng)絡(luò)互聯(lián)形成一個大型的邏輯智算池來適應(yīng)規(guī)模日益增長的大模型訓(xùn)練,有望大幅提升閑散智算資源的利用率。”
與此同時,他指出,邁向未來,跨域訓(xùn)練是必然趨勢。按照統(tǒng)計,大模型參數(shù)每1-2年增長10倍,而對應(yīng)的GPU芯片的算力僅增長2-4倍,遠低于模型規(guī)模的增速。隨著模型規(guī)模的日益擴大,單體的算力、電力、空間資源終將受限,可能需要在園區(qū)甚至更大范圍內(nèi)由多個智算中心互聯(lián)形成一個超級邏輯智算資源池,進行聯(lián)合訓(xùn)練才有可能支撐超大模型的訓(xùn)練。
韋樂平強調(diào):“至于推理與具體業(yè)務(wù)場景和訪問量相關(guān),更需要跨域?qū)嵤!?/P>
針對大模型訓(xùn)練智算拉遠的挑戰(zhàn),韋樂平認為復(fù)雜的商用場景,勢必會面臨大量不同功能、性能的異構(gòu)GPU、規(guī)模不同的AIDC的互聯(lián)、不同業(yè)務(wù)場景、不同設(shè)備和不同組網(wǎng)方式、不同模型和不同參數(shù)的協(xié)同挑戰(zhàn)。
此外,還面臨一些技術(shù)挑戰(zhàn)。在韋樂平看來,一是帶寬收斂問題。“無收斂帶寬普適性和前瞻性好,部署快,但成本太高;收斂比4-8時,帶寬成本可以降至10%之內(nèi),但是只適用特定業(yè)務(wù)場景下的特定模型拆分方式,缺乏普適性和前瞻性。”
二是功能和性能問題。拉遠后必然面對丟包、抖動乃至中斷故障等諸多挑戰(zhàn),對ROCE網(wǎng)絡(luò)的功能和性能有不少嚴(yán)格的要求。
統(tǒng)一管理和運維也是挑戰(zhàn)之一。韋樂平認為,現(xiàn)有固化的組織架構(gòu)和生產(chǎn)流程不適合快速部署邏輯統(tǒng)一的異地智算中心,需要對現(xiàn)有管理運維體系、生產(chǎn)流程、監(jiān)控管理平臺改造升級。