AMD計(jì)劃打造一個(gè)由120萬顆GPU組成的計(jì)算機(jī)集群

by: admin 行業(yè)資訊 0 2024-06-27 18:34:52

AMD，作為全球知名的半導(dǎo)體和計(jì)算機(jī)處理器制造商，最近透露了一個(gè)雄心勃勃的計(jì)劃——打造一個(gè)擁有多達(dá)120萬顆GPU的超級(jí)計(jì)算機(jī)集群。這一消息在業(yè)界引起了廣泛關(guān)注，被認(rèn)為是AMD與英偉達(dá)在AI計(jì)算領(lǐng)域競(jìng)爭(zhēng)的重要一步。

AMD計(jì)劃打造一個(gè)由120萬顆GPU組成的計(jì)算機(jī)集群.jpg

AMD的這一表態(tài)來自于公司執(zhí)行副總裁兼數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理Forrest Norrod。當(dāng)被問及AMD是否已經(jīng)收到關(guān)于120萬顆GPU集群的咨詢時(shí)，F(xiàn)orrest表示，這一表述幾乎是準(zhǔn)確的。這意味著AMD不僅有了這樣的計(jì)劃，而且已經(jīng)與潛在的客戶進(jìn)行了深入的溝通。

然而，業(yè)界對(duì)于這樣一個(gè)龐大的GPU集群持有一定的疑慮。通常來說，AI訓(xùn)練集群由幾千個(gè)GPU構(gòu)建，通過高速互聯(lián)能力進(jìn)行連接。而擁有120萬個(gè)GPU的集群，其規(guī)模之大幾乎超出了人們的想象。在這樣的系統(tǒng)中，延遲、功耗以及硬件故障等問題將變得尤為突出。

首先，AI工作負(fù)載對(duì)延遲極為敏感。在AI訓(xùn)練中，大量的數(shù)據(jù)需要在各個(gè)GPU之間進(jìn)行傳輸和處理。如果某些數(shù)據(jù)傳輸比其他數(shù)據(jù)傳輸耗時(shí)更長(zhǎng)，就會(huì)對(duì)整個(gè)系統(tǒng)的性能產(chǎn)生負(fù)面影響，甚至干擾正常的工作流程。因此，在構(gòu)建這樣一個(gè)龐大的GPU集群時(shí)，如何確保數(shù)據(jù)傳輸?shù)母咝院头€(wěn)定性將是一個(gè)巨大的挑戰(zhàn)。

其次，功耗也是一個(gè)不可忽視的問題。GPU作為計(jì)算密集型設(shè)備，其功耗通常較高。在一個(gè)擁有120萬個(gè)GPU的集群中，功耗將是一個(gè)巨大的負(fù)擔(dān)。這不僅會(huì)增加能源成本，還可能對(duì)環(huán)境產(chǎn)生不良影響。因此，如何在保證性能的同時(shí)降低功耗，將是AMD需要重點(diǎn)考慮的問題。

此外，硬件故障也是構(gòu)建這樣一個(gè)龐大集群時(shí)需要考慮的因素。目前的超級(jí)計(jì)算機(jī)每隔幾小時(shí)就會(huì)發(fā)生一次硬件故障。當(dāng)規(guī)模擴(kuò)大至目前已知最da集群的30倍時(shí)，硬件故障的頻率和嚴(yán)重程度將大大增加。這不僅會(huì)影響系統(tǒng)的穩(wěn)定性和可靠性，還可能對(duì)數(shù)據(jù)安全造成威脅。因此，如何設(shè)計(jì)出一個(gè)具有高度容錯(cuò)性和自我修復(fù)能力的系統(tǒng)，將是AMD需要解決的關(guān)鍵問題。

目前已知運(yùn)行速度最快的超級(jí)計(jì)算機(jī)之一Frontier，其GPU數(shù)量“僅有”37888個(gè)。相比之下，AMD計(jì)劃打造的120萬顆GPU集群無疑是一個(gè)巨大的飛躍。這一構(gòu)思不僅表明了AMD在AI計(jì)算領(lǐng)域的雄心壯志，也反映了2020年代AI競(jìng)賽的嚴(yán)肅性。盡管存在諸多挑戰(zhàn)和疑慮，但AMD的這一計(jì)劃無疑將推動(dòng)整個(gè)行業(yè)向前發(fā)展，并為我們帶來更多驚喜和可能性。

Forrest Norrod沒有透露哪個(gè)組織正考慮構(gòu)建如此規(guī)模的系統(tǒng)，但確實(shí)提到有“非常清醒的人”正考慮花費(fèi)數(shù)百億乃至千億美元在AI訓(xùn)練集群上。這意味著，盡管面臨諸多挑戰(zhàn)和困難，但仍有許多企業(yè)和機(jī)構(gòu)對(duì)AI技術(shù)抱有極大的信心和期望。他們?cè)敢馔度刖揞~資金和資源來推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用，以應(yīng)對(duì)日益復(fù)雜的業(yè)務(wù)挑戰(zhàn)和市場(chǎng)需求。

億配芯城 (2).png