算力即國力:2024年起,再怎么重視“異構芯片”都不為過
-
收藏
0
進入大模型時代,全社會算力需求被推高到了前所未有的程度。
2024年1月,微軟聯合創始人比爾·蓋茨與OpenAI首席執行官山姆·奧特曼進行了一次對話,奧特曼在對話中表示人工智能將引發人類歷史上“最快”的一次技術革命,人類可能還沒有準備好以多快的速度適應這種變革。奧特曼預計,這項技術將迅速發展,使系統的計算能力達到GPT-4的10萬倍或100萬倍。
簡單來說,用于人工智能計算的英偉達GPU芯片遠遠不夠用了。
2024年1月,Meta公司CEO扎克伯格宣布到今年年底將需要大約35萬塊英偉達H100,將其他GPU包括在內的話,算力總水平相當于近60萬塊H100,而60萬塊H100的采購費用保守估計約90億美元。
在中國市場,不僅阿里、騰訊等互聯網和云公司紛紛囤積GPU,甚至像蓮花味精這樣的上市公司也斥資6.93億采購了330臺英偉達H800 GPU,更不用說各種在建智算中心。
而為應對GPU全球供應短缺問題,以及美國對GPU的出口限制問題,當然更重要的是在AI場景下降低成本,于是市場上涌現了各類異構AI芯片。
由于大模型AI對于全社會的重要性,以及各行各業加快建設智算中心,也引發了全社會學習異構AI芯片的熱潮,即使是企業領導干部也需要了解一些異構AI芯片的知識。
01
在了解相關CPU、GPU等異構AI芯片的知識之前,讓我們先來了解一下基本的計算機原理。
現代計算機由處理器、內存、I/O(輸入/輸出)設備三大部分構成。在處理器方面,一直以來都遵循馮·諾依曼架構,即處理器也是一個系統。處理器又叫中央處理單元(Central Processing Unit),即CPU。程序員通過輸入設備發出指令,經過CPU和內存的處理,再將處理結果發送到輸出設備。
ISA指令集體系結構是處理器與程序員進行交互的方式,指令集是處理器指令的完整集合,體系結構是處理器系統的構建方式,特定的處理器需要配備相應的指令集,才能與程序員交互。32位處理器是指能夠處理32位指令和數據的CPU和計算機架構;64位處理器是指能夠處理64位指令和數據的CPU和計算機架構。
RISC即精簡指令集計算機架構,CISC即復雜指令集計算機架構,英特爾X86是典型的CISC架構,而MIPS(適用于嵌入式和消費級設備)和ARMv8架構(適用于移動設備、服務器、網絡設備、物聯網設備等)都是典型的RISC架構。RISC-V是一個基于RISC原則的開源指令集架構,RISC-V指令集可以自由地用于任何目的,允許任何人設計、制造和銷售RISC-V芯片和軟件。
CISC架構適用于通用計算任務的計算機。既然要完成各種通用計算任務,勢必帶來指令集的冗余,因此CISC指令集中只有約20%的指令會經常被用到,其余80%的指令則不經常被用到,這些不經常被用到的特殊指令讓CPU的設計變得非常復雜,也導致CPU的面積越來越大。而RISC架構只包含處理器常用的指令,對于不常用的操作,通過執行多條常用指令的方式來達到同樣的效果。
02
基礎芯片,從CPU到ASIC
CPU
理解了這些最基本的概念,讓我們來看一看CPU、GPU、FPGA、ASIC這幾種最基礎的異構芯片。CPU通常指英特爾X86,AMD公司也生產X86架構CPU。X86架構最早出現在上世紀70年代末的Intel 8086處理器上,后發展為80286、80386、80486等,逐步演化為現代的X86架構。
X86架構的特點包括屬于CISC架構,X86架構在個人計算機、服務器和工作站市場占主流地位,具有很高的兼容性,能夠運行大量軟件和操作系統,無需重新編寫或修改就可以移植軟件,X86架構引入了64位處理器,能夠處理更大的內容和數據,而由于X86架構支持多核心處理等,適合運行虛擬機,因而也在虛擬化和云計算中得到了廣泛應用。
當然,在英特爾和AMD之前是大型主機和小型機的年代。整個現代PC產業主要指X86架構的個人計算機、服務器和工作站以及基于這些硬件的軟硬件生態。而整個現代PC產業和之前的小型機產業都是IBM大型主機技術降維應用的紅利。
在1960年代初,IBM投入了50億美元開發大型主機,這相當于今天接近400億美元的投資。1969年,人類第一位宇航員登陸月球,而在阿波羅登月項目中,IBM大型主機System360做出了重要貢獻。IBM大型主機技術孵化了后來的小型機以及整個現代PC與PC服務器產業。
與PC和PC服務器不同,大型主機和小型機都是高度集成的系統,而不像X86那樣易用化、模塊化、工業標準化,從而支撐起龐大的軟件產業和用戶群。
今天,大型主機和小型機仍然在進化和使用中,但其用戶群主要集中在頂級金融機構或對性能和安全性要求超高的企業或政府機構。大型主機和小型機的CPU處理器與X86架構CPU處理器不同,目前主要由IBM維護和推出新的大型主機與小型機CPU。
在馮·諾依曼架構下,CPU也是一個系統,今天已經發展成為超大規模集成電路。X86 CPU從單核到雙核以及包含更多核心的CPU,越來越復雜、性能也越來越高。最新的第五代英特爾至強服務器CPU最高支持64個核心,AMD已經發布的第四代EPYC霄龍服務器CPU最高支持96個核心;而根據有關披露,即將發布的第六代至強服務器CPU最高將支持288個核心(能效核)。
當然,僅從核心數量并不能判定CPU性能的高低,英特爾與AMD對于核心的定義也各不相同。但一個CPU處理器內將容納更多的核心,甚至是異構芯片,將是CPU的發展趨勢。
PCIe是一種高速串行計算機擴展總線標準,是當前主流的片間互連高速總線,為主板上的各類外設以及擴展卡等提供與CPU之間的高速連接。PCIe由PCI發展而來,PCI外設組件互連總線由英特爾公司在1991年推出,允許在當時的計算機內安裝多達10個遵從PCI標準的擴展卡。PCIe擴展了PCI的性能,支持邏輯隔離的多個虛擬設備。
ASIC
再回到指令集和指令集架構。在現代計算機產業中,根據指令的復雜度,處理器分為CPU、Coprocessor協處理器、GPU(圖形處理器)、FPGA(現場可編程門陣列)、DSA(特定領域加速器)和ASIC(專用集成電路)等,按從CPU到ASIC的順序,通用性、靈活性和成本不斷降低,面積也越來越小,但在應對特定計算場景的性能不斷提升,其中CPU是能夠獨立運行的處理器,其它處理器則需要在CPU的協助下運行。
接下來先看一下ASIC專用集成電路。ASIC與CPU可以說是天平的兩端,CPU是一個硬件與軟件解耦的架構,而ASIC是硬件與軟件高度集成的架構。ASIC為特定應用而設計,可以通過定制化設計,以滿足特定應用的需求。與通用芯片相比,ASIC具有更高的效率和更低的功耗。
由于ASIC是完全不可編程的定制處理引擎,因此理論上也具有最復雜的“指令”以及最高的性能效率。因為每種ASIC可覆蓋的場景非常小,因此需要數量眾多的ASIC處理引擎,才能覆蓋各類場景。
例如,在網絡交換機中常采用ASIC芯片,用于交換機所有端口之間直接并行轉發數據,以提高交換機高速轉發數據性能;ASIC也被用于各種汽車系統,包括ADAS高級駕駛員輔助系統、發動機控制單元和信息娛樂系統等;在消費電子設備、醫療設備和工業控制系統中,也大量應用了ASIC芯片。
進入人工智能時代,ASIC芯片還被用于NPU、TPU等人工智能算法專用芯片。由于ASIC廠商眾多,不同的ASIC廠商推出各種的編程語言,可謂五花八門、各不相同,因此ASIC芯片很難培養起龐大的生態。
FPGA
理解了ASIC,那么FPGA就是處于CPU與ASIC之間的一種集成電路。FPGA又稱現場可編程門陣列,是ASIC專用集成電路領域中的一種半定制電路,是可重復編程的設備。
一般來說,FPGA比ASIC的速度慢,實現同樣功能要比ASIC電路面積大,功耗、成本等都高于ASIC,但是可以快速成品,可以被修改。由于可重復編程的特點,FPGA的通用性要比ASIC更好。FPGA無需像ASIC設計那樣要經過數百萬美元的流片階段,也不用承擔流片失敗的風險。因此,FPGA通常用于ASIC芯片的驗證。
FPGA本質上是并行計算,這種并行處理能力使得 FPGA在高速數據處理的應用中表現出色,例如數字信號處理、圖像處理和加密等。同樣,在人工智能時代,FPGA也被用于人工智能算法處理。特別是AI算法推陳出新,對硬件的算力及靈活度都有較高要求,而FPGA正好符合了這樣的需求。
DSA
接下來看DSA特定領域加速器。DSA是一種針對特定領域定制的可編程處理器,能夠用于加速某些應用程序,實現更好的性能和性價比。DSA介于FPGA與ASIC之間,ASIC是完全不能編程的軟硬件高度集成的定制芯片,FPGA是面向不同領域的可編程處理器,而DSA則是專門面向特定領域的可編程處理器。
由此可見,DSA的靈活性在FPGA與ASIC之間,成本、功耗等也在二者之間。
DSA的好處就是能夠面向特定領域,形成自己的生態,只要該領域的市場足夠大,比如人工智能計算加速、圖形渲染加速等。某種程度上,GPU就是基于DSA思路而設計開發的產品。
隨著摩爾定律的失效,現代計算機專家們認為DSA能夠提高CPU處理器的效率和速度。2017年,圖靈獎獲得者John Hennessy與David Patterson聯合發表了“計算機體系架構的黃金年代”文章,指出由于目前通用計算的性能瓶頸,需要面向不同應用場景開發針對性優化的架構,他們給出的解決方案就是DSA。

DSA既是一種架構,也是一種設計理念。狹義的DSA基于ASIC實現,廣義的DSA基于FPGA實現,或者基于顆粒度更小的Chiplet小芯片集成起來實現。
所謂Chiplet,即將一個大芯片裸片(Die)切成小芯片,切下來的小芯片是已經完成了設計、制造、測試流程的成品小裸片,只需要一次封裝加工就可以使用,既可以復用給其他芯片,也可以將眾多Chiplet集成起來實現新的功能。DNN深度神經網絡是DSA應用的一個重要領域。
GPU
那么接下來讓我們了解一下當下最火爆的GPU。GPU又稱圖形處理器,目前分為消費級GPU和數據中心級GPU。消費級GPU主要用于游戲電腦、設計、3D顯示等場景,而數據中心級GPU主要用于人工智能場景。
CPU與GPU最大的區別之一是CPU是基于串行計算,而GPU是基于并行計算,這讓GPU天然就適合基于并行計算的人工智能算法。
GPU作為一種DSA,在設計上就是專門為了需要大規模并行計算的圖形處理而生,因此GPU的核心數通常遠超CPU,可達512核甚至更多,但GPU也沒有CPU上那么 多適用通用計算的組件。典型的GPU廠商有NVIDIA英偉達、AMD、英特爾等。
首個現代通用GPU架構(即GPGPU)由英偉達在2006年推出,這就是Tesla。Tesla采用全新的CUDA架構,支持C語言對GPU編程,可用于通用數據的并行計算,標志著GPU開始從專用圖形處理器轉變為通用數據并行處理器。
隨著英偉達公司發布NVIDIA GPU專用編程庫CUDA,AMD和Apple等公司推出開源的OpenCL(Open Computing Language, 開放設計語言,是一個為異構平臺CPU/GPU/DSP/FPGA等等進行編程設計的框架),GPU開始在通用計算領域得到廣泛應用,如數值分析、海量數據處理、金融分析等等。
近年來,隨著人工智能的大火,GPGPU也在深度學習算法等人工智能計算中廣泛應用。數據中心級GPU就是為了人工智能的智算需求而生,英偉達A100、H100被認為是功能最強大的數據中心級GPU,也是各大人工智能公司、云廠商、互聯網公司等競相爭奪的資源。
Co-processor協處理器
所謂協處理器,顧名思義即協助CPU中央處理器完成各種計算任務的處理器,特別是協助中央處理器完成無法執行或執行效率、效果低下的處理任務而開發和應用的處理器,例如數學協處理器、圖形協處理器、音頻協處理器、網絡協處理器或手機上的運行協處理器等。
協處理器通常被集成在計算機的主板或者CPU內部,也可以作為外部設備連接到主板上。例如,早期的圖形協處理器Intel 82786,而今天的英特爾GPU也開始具備更強的能力,以應對英偉達對于GPU市場的壟斷。
免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議?!?/div>
猜你喜歡
“算力天使”光模塊,是如何從中國卷向全球的?
在全球整個AI算力產業鏈分工上,“算力天使”正是當下中國的比較優勢板塊。毋論英偉達還是Meta,都在這一細分領域離不開它的中國產業鏈伙伴。“困在”服務器里的浪潮信息,還能搭上AI風口嗎?
近期,OpenAI基于視覺美學推出首個文生視頻模型Sora,迅速成為全球科技圈熱點,新型AI服務器時代浪潮信息能否吃到這波紅利呢?“算力沙皇”的權杖,圈出了AI 2024的方向
英偉達本周公布了最新季報。比起超預期的財務數據,電話會議才是真正的看點:AI的2024怎么走?“算力沙皇”的權杖,指明了潮水的方向。本文主要記錄電話會紀要內容。多種手段虛增收入,算力概念熱門股鴻博股份“觸雷”
今年漲幅最高超500%的算力概念股鴻博股份(002229.SZ)忽然“觸雷”。由于通過多種手段虛增主營業務收入,收到監管警示函。
錦緞
共205篇文章
為上市公司提供知識產權解決方案