在英偉達(dá)新一代旗艦AI芯片Blackwell交付時(shí)間越來越近之時(shí),又被曝過熱恐延遲交付。
11月18日,英偉達(dá)發(fā)言人就此問題向記者回應(yīng)稱:“我們正在與領(lǐng)先的云服務(wù)提供商合作,將其作為我們工程團(tuán)隊(duì)和流程中不可或缺的一部分。工程迭代是正常且符合預(yù)期的。將GB200這一迄今為止最先進(jìn)的系統(tǒng)集成到各種數(shù)據(jù)中心環(huán)境中,需要與我們的客戶共同設(shè)計(jì)。”
據(jù)悉,當(dāng)Blackwell芯片被安裝到設(shè)計(jì)可容納72個(gè)處理器的服務(wù)器機(jī)架中時(shí),由于高負(fù)荷運(yùn)算產(chǎn)生的熱量超出了現(xiàn)有散熱系統(tǒng)的處理能力,導(dǎo)致服務(wù)器機(jī)架出現(xiàn)過熱現(xiàn)象。這種過熱問題不僅限制了GPU的性能,還存在損壞組件的風(fēng)險(xiǎn)。
盡管英偉達(dá)多次要求供應(yīng)商調(diào)整機(jī)架設(shè)計(jì)以緩解這一問題,但目前尚未找到有效的解決方案。這使得原計(jì)劃在第二季度出貨的芯片交付延遲,并可能影響到Meta Platforms、Alphabet和微軟等重要客戶的數(shù)據(jù)中心部署計(jì)劃。
為了應(yīng)對這一挑戰(zhàn),英偉達(dá)正在與多家云服務(wù)提供商合作,共同優(yōu)化散熱方案,并強(qiáng)調(diào)工程迭代是正常且預(yù)期的一部分,但其交付時(shí)間或不得不再次推遲。
此前,為了改善Blackwell芯片的散熱系統(tǒng),英偉達(dá)已經(jīng)對服務(wù)器機(jī)架設(shè)計(jì)進(jìn)行了多項(xiàng)修改。英偉達(dá)還向Open Compute Project(OCP)貢獻(xiàn)了NVIDIA GB200 NVL72機(jī)架和計(jì)算以及交換機(jī)托盤的液冷設(shè)計(jì)。這種液冷設(shè)計(jì)使得系統(tǒng)能夠更有效地管理熱量,從而提高整體系統(tǒng)的穩(wěn)定性和可靠性。
英偉達(dá)Blackwell架構(gòu)的GPU在AI計(jì)算性能上大幅提升,B200 GPU的晶體管數(shù)量是前代H100的兩倍多,AI運(yùn)算性能顯著提高。這種技術(shù)上的突破使得Blackwell芯片在市場中具有強(qiáng)大的競爭力。目前Blackwell芯片已經(jīng)吸引了包括微軟、Meta等科技巨頭的采用,并且與OpenAI有獨(dú)家合作。
盡管面臨生產(chǎn)延遲,但英偉達(dá)表示Blackwell的需求依然非常強(qiáng)勁,并預(yù)計(jì)其收入將在未來幾個(gè)季度達(dá)到數(shù)十億美元。此外,北美CSP廠商(云端服務(wù)業(yè)者)的資本開支持續(xù)增長,這也為AI算力板塊提供了高景氣度的支持。
公司網(wǎng)站:cx43.cn