來源:環球時報
【環球時報報道 記者 馬俊】美國依靠軟硬件優勢,在用規模“堆”出全球最強人工智能(AI)的這條道路上狂奔不已。美國富豪馬斯克近日在社交媒體上宣布,旗下AI初創公司xAI已開始用10萬塊H100 GPU組成的“孟菲斯超級集群”進行AI訓練,號稱是“全球最強大的AI訓練集群”。中國是否應該跟隨美國引領的這條技術路線?近日在由中國智能計算產業聯盟與全國信標委算力標準工作組共同主辦的2024中國算力發展專家研討會上,多名院士專家給出了各自的觀點。
未來超智融合將分為三個階段
中國科學院院士陳潤生在研討會上表示,“人工智能大模型是新質生產力的代表,大模型和超級計算的融合發展十分重要,我國需要認真地去布局、去考慮。”中國科學院計算技術研究所研究員張云泉提到,大模型的迅猛發展彰顯出新質生產力的特質,但目前也遇到了算力瓶頸。鑒于中國在超算領域擁有深厚技術積累,希望超智融合(超級計算與以大模型為代表的智能計算進行融合)能有效化解這一挑戰。國家信息中心信息化和產業發展部主任單志廣解釋說,“超智融合是隨著當前基礎算力、智算算力、超算算力等的應用多元化發展而誕生的,即能否用混合型算力資源或者融合型算力體系,來解決同時滿足多種不同算力的應用需求。”
在預測未來超智融合的進程時,中國科學院院士錢德沛認為,將沿著for AI、by AI和being AI三個階段清晰演進,從硬件到軟件全方位地進化,以適應和推動人工智能技術的發展。在第一階段for AI,將著重于對現有計算機系統的改造與升級,發展專用硬件,確保可高效地支持和執行AI任務,為人工智能研究提供堅實的基礎設施。在第二階段by AI,將要用AI改造傳統的計算,一方面用AI的方法來求解傳統超算問題,另一方面AI也在影響傳統計算機的結構,這個趨勢也會逐漸明顯。在最終的being AI階段,計算機系統將呈現內在的智能特性,人工智能不再是一種外加的能力,而成為計算機的核心屬性和基本組成,可能計算的能力或者智能化的水平,會遠遠超過我們今天的超算或智算。
陳潤生注意到,目前科學界和產業界一直在企圖解決超算和智算融合的問題。例如英偉達最新推出的GB200架構,其實是兩塊GPU加上一塊CPU,某種意義上就可以算是把智算和超算的優勢都用上了,在兩塊GPU執行機器學習的布局中,加上CPU提供的數據高速傳輸。但他認為,這種架構并沒有從根本上解決效率問題。“超算與智算的結合是必然的,將會有機融合,而不是簡單地把它們湊在一起”。
中國工程院院士鄭緯民也表示,大模型的開發、訓練、微調及推理各個環節均離不開算力,且算力成本占據著整體開銷的大頭,特別是在訓練階段,其占比高達70%,而在推理階段更是高達95%。鑒于此,算力成為支撐大模型發展的關鍵因素。
智能計算應該參考“人類智能”
對于中國當前的大模型熱潮以及跟隨美國“堆規模”的技術路徑,中國院士專家們提出了各自觀點。錢德沛表示,中國現在搞出的大模型數量和種類比美國還多,也都在搞通用人工智能,但我們不但在硬件上受到美國的嚴格限制,而且用于大模型訓練的數據的質量和數量也都偏少,“這樣做出來的大模型能比美國好嗎?我想我們還是要符合中國國情,不能夠完全跟著美國人走”。
陳潤生也認為,中國現在出現的大模型基本上是在美國提出的大模型和算法上進行改進,但是對于整個大模型的基礎理論考慮甚少。他在研討會上提出,對比傳統超算采用的局域式記憶模式,智能計算展現出了根本性的差異——信息的分布式存儲。這種存儲方式模仿了人腦神經網絡的復雜結構,通過大規模、密集互聯的芯片網絡來承載日益龐大的模型。但是如何有效地將人類知識嵌入這些復雜系統,以及信息具體如何在系統中分布存儲,其背后的算法與技術理論仍未充分探索。“隨著模型規模的無節制擴張,導致一個不可克服的問題是能源耗竭,因此一味地增加芯片,依靠增加系統的復雜度來解決大模型的存儲問題是不完全可取的”。
由此陳潤生認為,未來智能計算還是應該參考“人類智能”,也就是模擬人腦的運行機制。人腦的體積非常小,能耗只有幾十瓦,但它所產生的智能,超過了現在最先進的、能耗相當于一整座城市的AI。“大模型與智算的發展,不只是應用層面的模型和算法上改進,還需要從基礎理論角度去有所突破。現在大模型只是發展了前10%,還有90%的工作沒做,我也相信大模型絕對不是靠著越堆芯片越多實現的,一定像人類的大腦一樣學習,把空間復雜度、時間復雜度壓縮得更小,能耗降得更低。所以我覺得最基本的問題,是要研究目前空間復雜度來完成智算的基礎理論。如果我們能在基礎理論上有所發展,我們就能完成根本和原始創新。”
北京應用物理與計算數學研究所研究員袁國興認為,不可能指望一種通用大模型在各行各業都能夠解決問題。從實際情況看,不同的應用有不同的技術,要求用不同的算法,對計算能力也有不同的要求。例如在科學計算方面,對計算精度的要求越來越高,而隨著計算機的規模擴大,數據越來越多,可信度在不斷地下降。美國國家航空航天局(NASA)也提出類似的觀點,他們對計算精度提出很高的要求。因此未來不同的應用會有不同的大模型、不同的計算,解決不同的問題。現在的大模型對計算精度和算法的要求完全不一樣。
中國信通院云計算與大數據研究所所長何寶宏補充說:“計算和訓練對底層基礎設施要求并不一樣,也需要判斷在什么場景下要屏蔽差異性,在什么場景要體現差異性。”
需要發展主權級大模型
張云泉表示,美國最近通過一系列舉動試圖在發展人工智能方面對我國“卡脖子”,包括禁售高端GPU、終止共享大模型的源代碼以及中斷生態方面的合作等。同時現在大模型的運算規模達到1萬塊GPU,甚至10萬塊時,就需要通過發展大模型專用超算來突破能耗墻、可靠性墻、并行墻等技術瓶頸。在此背景下,想要在短期內突破大模型算力瓶頸,中國有一條路可走:利用過去二十多年積累的先進超算技術,研發大模型專用超算,克服大模型算力瓶頸問題,使我國可以緊緊咬住全球大模型最先進水平,不至于掉隊。
張云泉在介紹超智融合體系下的“主權大模型”計劃時表示,我國在超算領域擁有深厚技術積累,近年又投入巨量資金發展智能算力,聚焦建立以超智融合算力體系為中心的體系工程響應大模型的算力需求,希望能最大化利用超算技術優勢破解算力挑戰。按照“主權級大模型”計劃的部署,“主權級大模型”創新聯合體將依托國家超算、中科院和全國重點院校的知名教授團隊、智能芯片企業、大模型解決方案企業等共同打造類似OpenAI的開放組織,由非營利性部門組織“主權級大模型”研發,由營利性部門組織“主權級大模型”落地。他建議說,超算是“國之重器”,需要用來攻克最大、最難的挑戰。主權級大模型是一個能支撐國家發展的根模型,不是一般的大模型。類似的國家級超級大模型也受到其他國家的高度重視,例如美國微軟公司攜手 OpenAI發布了計劃投入1000億美元全新人工智能超級計算機的計劃,日本最近也宣布要投入巨資發展國家級大模型。
陳潤生認為,根據中國目前的基礎條件以及大模型必然要發展的趨勢,我們完全跟隨西方的做法是不現實的,也是很難在短期內趕上的。所以找到一條發展主權級大模型的路,更為重要。