繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

智算中心芯片,誰在佈局?

2024-08-03 09:41

「算力」相關產業近期持續火爆,智算中心的建設,也正在遍地開花。

進入2024年,就有武昌智算中心、中國移動智算中心(青島)、華南數谷智算中心、鄭州人工智能計算中心、博大數據深圳前海智算中心等相繼開工或投產使用。

據不完全統計,目前全國正在建設或提出建設智算中心的城市已經超過30個,投資規模超百億元。

到底什麼是智算中心?智算中心主要用來做什麼?智算中心都有哪些特點?

01

何為智算中心?

根據《算力基礎設施高質量發展行動計劃》定義,智算中心是指通過使用大規模異構算力資源,包括通用算力(CPU)智能算力(GPU、FPGA、ASIC等),主要為人工智能應用(如人工智能深度學習模型開發、模型訓練和模型推理等場景)提供所需算力、數據和算法的設施。

也可以説,智算中心是以人工智能計算任務為主的數據中心。

數據中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計算任務為主的通算中心,以及以超級計算任務為主的超算中心。

2023年是人工智能發展的重要轉折年,AIGC技術取得了突破性進展,大模型訓練、大模型應用等新業務正在快速崛起,作為智能算力的載體,數據中心也已經從數據機房、通算中心,發展到現階段的超算中心和智算中心。

02

智算中心與通用數據中心有何不同?

智算中心,通常與雲計算緊密相關,強調資源控制和基礎設施管理的靈活性。在雲環境中,數據中心提供商負責硬件和某些軟件工具的維護,而客户則擁有數據。相比之下,傳統的本地數據中心需要由企業自行管理和維護所有的數據資源。

本質的不同導致兩種模式在資本投入、資源部署以及安全性方面都有着極大的區別。

在資本投入上,智算中心客户無需大量的硬件和軟件成本即可選擇適合自己的服務模式,如公有云、私有云或混合雲;而傳統數據中心的客户則需要投入大量資金來購買和維護自己所需的服務器、網絡和存儲設備。

在資源部署和安全性上,智算中心的客户可隨時隨地通過互聯網遠程訪問和管理自己的數據和應用,與此同時還可以享受數據中心提供商提供的專業的安全保障,如防火牆、加密、備份和恢復等;而傳統數據中心的客户受到辦公/指定地點的限制,且需自己進行保護和管理數據。

智算中心,簡單來説就是專門服務於人工智能的數據計算中心,能夠為人工智能計算提供所需的專用算力。相比傳統數據中心,智算中心能滿足更具針對性的需求,以及更大的計算體量和更快的計算速度,為大模型訓練推理、自動駕駛、AIGC等各垂直行業場景提供AI算力。

03

AI智算,需要什麼樣的芯片?

在硬件的選擇上,智算中心與傳統數據中心的硬件架構也有所不同。

AI智算,需要什麼樣的算力芯片?

傳統數據中心的硬件架構比較單一,主要包含服務器、存儲設備和網絡設備。智算中心相比於此硬件架構就會更加的靈活,不同的應用場景也會選擇不同的計算節點。

智算服務器是智算中心的主要算力硬件,通常採用「CPU+GPU」、「CPU+NPU」或「CPU+TPU」的異構計算架構,以充分發揮不同算力芯片在性能、成本和能耗上的優勢。

GPU、NPU、TPU的內核數量多,擅長並行計算。AI算法涉及到大量的簡單矩陣運算任務,需要強大的並行計算能力。 

而傳統通用服務器則是以CPU作為主要芯片,用於支持如雲計算和邊緣計算等基礎通用計算。

AI智算,需要什麼樣的存儲芯片?

不止是算力芯片的不同,AI智算對存儲芯片也有着更高的要求。

首先是用量。智算服務器的DRAM容量通常是普通服務器的8倍,NAND容量是普通服務器的3倍。甚至它的PCB電路板層數也明顯多於傳統服務器。

這也意味着智算服務器需要佈局更多的存儲芯片,以達到所需性能。

隨着需求的水漲船高,一系列瓶頸問題也浮出水面。

一方面,傳統馮諾依曼架構要求數據必須加載到內存中,導致數據處理效率低、延迟大、功耗高;另一方面,存儲器牆問題使得處理器性能的增長速度遠快於內存速度,造成大量數據需要在SSD和內存間傳遞;此外,CPU掛載的SSD容量和帶寬限制也成為性能瓶頸。

面對「存儲牆」、「功耗牆」等問題,傳統計算體系結構中計算存儲架構亟需升級,將存儲與計算有機融合,以其巨大的能效比提升潛力,才能匹配智算時代巨量數據存儲需求。

針對這一系列問題,存算一體芯片或許是一個不錯的答案。

除了芯片不同之外,爲了充分發揮性能以及保障穩定運行,AI服務器在架構、散熱、拓撲等方面也進行了強化設計。

04

這些芯片,誰在佈局?

算力芯片的佈局情況

在GPU方面,GPU擅長大規模並行計算。華為、天數智芯、摩爾線程、中科曙光、燧原科技、英偉達、英特爾、AMD等都推出有相關的芯片。比如,華為推出了昇騰系列AI芯片昇騰910和昇騰310等,這些芯片專為AI訓練和推理設計,具有高性能和低功耗的特點。昇騰系列已廣泛應用於數據中心、雲服務和邊緣計算等領域,為智算中心提供強大的算力支持。

英偉達推出了多款針對AI訓練和推理的GPU產品,如A100、H100等。英特爾也推出了多款AI芯片產品,如Habana Labs的Gaudi系列芯片,旨在與英偉達競爭。AMD在AI芯片領域也有所佈局,推出了MI系列GPU和APU產品。

在FPGA方面,CPU+FPGA則結合了靈活性與高效能,適應算法快速變化。賽靈思、英特爾是市場主要參與者,相關產品有:賽靈思的VIRTEX、KINTEX、ARTIX、SPARTAN產品系列以及英特爾的Agilex產品系列;國內主要廠商包括復旦微電紫光國微安路科技等。

在ASIC方面,CPU+ASIC提供高性能定製計算,適合特定需求。國外谷歌、英特爾、英偉達等巨頭相繼發佈了ASIC芯片。國內寒武紀、華為海思、地平線等廠商也都推出了深度神經網絡加速的ASIC芯片。

在NPU方面,NPU是專門為人工智能和機器學習場景而設計的處理器。與CPU和GPU不同,NPU 在硬件結構上進行了針對性的優化,專注於執行神經網絡推理等AI相關的計算任務。CPU的通用性和NPU的專用性相結合,使得整個系統能夠靈活應對各種AI應用場景,快速適應算法和模型的變化。

目前市場上已有眾多量產的NPU或搭載NPU模塊的芯片,其中知名的包括高通Hexagon NPU、華為的昇騰系列,值得注意的是,各大廠商在芯片計算核心的設計上都有着獨特的策略。

在TPU方面,TPU是谷歌專門為加速深層神經網絡運算能力而研發的一款芯片,更加專注於處理大規模的深度學習任務,具備更高的計算能力和更低的延迟。TPU也屬於一種ASIC芯片。

在DPU方面,DPU專門設計用於數據處理任務,具有高度優化的硬件結構,適用於特定領域的計算需求。不同於CPU 用於通用計算, GPU 用於加速計算, DPU是數據中心第三顆主力芯片。國際三大巨頭英偉達、博通、英特爾的DPU產品佔據國內大多數市場,賽靈思、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家廠商在近 2-5 年內也均有 DPU 或相似架構產品生產。國內廠商包括中科馭數、芯啟源、雲豹智能、大禹智芯、阿里雲等。

國產算力芯片走到哪一步了?

在2024北京移動算力網絡大會上,中國移動算力中心北京節點正式投入使用,標誌着我國智算中心建設進入新階段。作為北京*大規模訓推一體智算中心,該項目佔地約57000平方米,部署近4000張AI加速卡,AI芯片國產化率達33%,智能算力規模超1000P。

北京超級雲計算中心運營實體北京北龍超級雲計算有限責任公司CTO甄亞楠近日表示,目前幫國產大模型「嫁接」國產芯片,只需15天左右就可以跑通。他認為算力共享會是行業大趨勢,高端GPU算力資源需要各方努力。

近年來,中國人工智能算力芯片的市場格局主要由英偉達主導,其佔據了80%以上的市場份額。

甄亞楠表示,「我們也非常關注國產芯片的發展,據瞭解,國內自研的大模型,甚至一些開源的大模型都在不斷往國產芯片上去做移植。現在從芯片使用角度來講,有些模型已經可以跑通運行了,需要追趕的方面主要在類似GPU這種高性能。」

「整個的國產化是分層級的,芯片屬於硬件這一層,除此之外還有軟件的生態。對於國產的芯片來講,不管是框架還是生態,都需要有一定的培育周期。」甄亞楠呼籲,最終的應用方要給到國產芯片足夠的信心。

存儲芯片的佈局情況

智算中心在存儲方面需要具備高容量、高可靠性、高可用性等特點。存儲設備通常採用高性能的硬盤或固態硬盤,並配備冗余的存儲架構,以確保數據的安全性和可訪問性。三星、美光、SK海力士等都有相關芯片都廣泛應用於數據中心、雲計算等領域,為智算中心提供高性能的存儲解決方案。

國內廠商近年來在DRAM與NAND技術追趕上也實現了快速發展。

除了傳統的存儲芯片外,智算中心還需要上文提到的新型存儲—存算一體芯片發揮更大的作用。

從存算一體發展歷程來看,自2017年起,英偉達、微軟、三星等大廠提出了存算一體原型,同年國內存算一體芯片企業開始涌現。

大廠們對存算一體架構的需求是實用且落地快,而作為最接近工程落地的技術,近存計算成為大廠們的*。諸如特斯拉、三星等擁有豐富生態的大廠以及英特爾、IBM等傳統芯片大廠都在佈局近存計算。

國內初創企業則聚焦於無需考慮先進製程技術的存內計算。其中,知存科技、億鑄科技、九天睿芯等初創公司都在押注PIM、CIM等「存」與「算」更親密的存算一體技術路線。億鑄科技、千芯科技等專注於大模型計算、自動駕駛等AI大算力場景;閃易、新憶科技、蘋芯科技、知存科技等則專注於物聯網、可穿戴設備、智能家居等邊緣小算力場景。

億鑄科技致力於用存算一體架構設計AI大算力芯片,首次將憶阻器ReRAM和存算一體架構相結合,通過全數字化的芯片設計思路,在當前產業格局的基礎上,提供一條更具性價比、更高能效比、更大算力發展空間的AI大算力芯片換道發展新路徑。

千芯科技專注於面向人工智能和科學計算領域的大算力存算一體算力芯片與計算解決方案研發,在2019年率先提出可重構存算一體技術產品架構,在計算吞吐量方面相比傳統AI芯片能夠提升10-40倍。目前千芯科技可重構存算一體芯片(原型)已在雲計算、自動駕駛感知、圖像分類、車牌識別等領域試用或落地;其大算力存算一體芯片產品原型也已在國內率先通過互聯網大廠內測。

知存科技的方案是重新設計存儲器,利用Flash閃存存儲單元的物理特性,對存儲陣列改造和重新設計外圍電路使其能夠容納更多的數據,同時將算子也存儲到存儲器當中,使得每個單元都能進行模擬運算並且能直接輸出運算結果,以達到存算一體的目的。

05

智算規模佔比超30%,算力建設如火如荼

7月初,天府智算西南算力中心正式在四川成都投運。據介紹,該中心將以算力支撐成都打造千億級人工智能核心產業,賦能工業製造、自然科學、生物醫學、科研模擬實驗等領域的人工智能創新。

這不是個例。近一個月來,銀川綠色智算中心項目集中開工;北京移動在京建成*大規模訓推一體智算中心,支撐高複雜度、高計算需求的百億、千億級大模型訓練推理;鄭州人工智能計算中心開工建設,總投資超16億元……以智算中心為代表的數字新基建正加快建設落地。

國家統計局7月15日發佈的數據顯示,截至5月底,全國新建5G基站46萬個;規劃具有高性能計算機集羣的智算中心達10余個,智能算力佔算力總規模比重超過30%。

據中國IDC圈不完全統計,截止2024年5月23日,中國大陸共有智算中心283座,已覆蓋中國大陸所有省、自治區和直轄市。其中有投資額統計的智算中心項目140座,總投資額達到4364.34億元。有規劃算力規模統計的智算中心項目177座,總算力規模達到36.93萬PFlops。

這些「智算中心」標準不一、規模不同,算力規模一般在50P、100P、500P、1000P,有的甚至達到12000P以上,雖然AI浪潮給智算中心帶來了廣闊的發展前景,但供需錯配、價格昂貴、重複建設等仍然是我國算力建設面臨的難題。

與此同時,多地也紛紛出臺專項規劃,明確未來幾年建設目標,並在技術、應用、資金等方面完善支持舉措。例如,江蘇發佈省級算力基礎設施發展專項規劃,提出到2030年全省在用總算力超過50EFLOPS(EFLOPS是指每秒百億億次浮點運算次數),智能算力佔比超過45%;甘肅提出對算力網絡新型基礎設施在用地、市政配套設施建設、人才引進、資金等方面給予政策支持。

「人工智能大模型等應用爆發式發展帶動了智能算力需求激增。」國家信息中心信息化和產業發展部主任單志廣表示,智能計算發展迅速,已經成為我國算力結構中增速最快的類型,其中大模型是智能算力的*需求方,需求佔比近六成。預計到2027年,中國智能算力規模年度複合增長率達33.9%。

【本文由投資界合作伙伴微信公眾號:半導體產業縱橫授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。