龍芯官宣未來三代GPGPU顯卡!從對(duì)標(biāo)7年前RX550到進(jìn)軍xnm、兼容CUDA
龍芯近日舉辦了盛大發(fā)布會(huì),正式推出龍芯3C6000系列服務(wù)器處理器、龍芯2K3000/3B6000M工控與終端處理器,甚至預(yù)告了下一代CPU微架構(gòu)。
與此同時(shí),龍芯還回顧了在GPU圖形核心領(lǐng)域的發(fā)展歷程,首次披露了未來多代技術(shù)和產(chǎn)品規(guī)劃。
龍芯的主業(yè)是CPU通用處理器,而做GPU的最初目的很簡(jiǎn)單,就是為了解決和龍芯CPU的配套問題,因?yàn)楫?dāng)時(shí)面臨著進(jìn)口低端GPU芯片供貨不穩(wěn)定不暢通、嵌入式GPU不適合桌面市場(chǎng)的情況。
有了自己的CPU、GPU,龍芯就可以形成自我配套,形成系統(tǒng)優(yōu)勢(shì),降低系統(tǒng)成本。
早在2016年,龍芯GPU項(xiàng)目就立項(xiàng)了,這個(gè)時(shí)間可能比很多人想象的都要早很多。
2017年開展圖形算法調(diào)研;2018年進(jìn)行總體架構(gòu)設(shè)計(jì),同時(shí)開展結(jié)構(gòu)模擬器設(shè)計(jì);2019年完成模擬器驗(yàn)證,轉(zhuǎn)入邏輯與結(jié)構(gòu)設(shè)計(jì)階段。
2020年,龍芯首款GPU LG100誕生,應(yīng)用于龍芯2K2000處理器、龍芯7A2000橋片(搭配(龍芯3號(hào)系列),性能接近AMD R5 230.至此龍芯完成了GPU結(jié)構(gòu)設(shè)計(jì)與驗(yàn)證的全套工作。
2021年的LG110屬于小幅迭代升級(jí),在相同面積下算力性能提升了一倍,也用于龍芯7A2000.
2022年的LG120則是又一次迭代,主要是提高了光柵化精度,優(yōu)化了圖形與算法,龍芯2K2000后期用的就是它。
龍芯的GPU設(shè)計(jì)是從零開始自研的,沒有依賴境外IP,也沒有歷史包袱,技術(shù)上也早期的固定功能流水線、可編程流水線階段,直接進(jìn)入了統(tǒng)一渲染流水線架構(gòu)。
當(dāng)然,龍芯GPU起點(diǎn)并不算高,初期僅能支持OpenGL 2.1、OpenGL ES 2.0.但已經(jīng)能夠基本滿足現(xiàn)代桌面應(yīng)用的顯示需求,可靠性和兼容性也都得到了市場(chǎng)驗(yàn)證,尤其是大幅降低了龍芯終端的成本。
迄今為止,LG100系列的出貨規(guī)模已經(jīng)超過了百萬顆。
2021年,LG100系列持續(xù)迭代的同時(shí),龍芯就啟動(dòng)了第二代LG200的調(diào)研與整體設(shè)計(jì)。
這一次,龍芯調(diào)整了GPU設(shè)計(jì)思路,從統(tǒng)一渲染架構(gòu)進(jìn)步到通用計(jì)算架構(gòu),將以往的圖形處理為中心,變成了計(jì)算為中心,這不亞于又一次從零起步。
之所以這么快轉(zhuǎn)換方向,因?yàn)辇埿疽庾R(shí)到,未來將是計(jì)算的天下,即使是圖形處理也以計(jì)算任務(wù)的形式存在??梢哉f,這也為后續(xù)的通用計(jì)算、AI處理發(fā)展打下了基礎(chǔ)。
經(jīng)過漫長(zhǎng)而復(fù)雜的設(shè)計(jì)、驗(yàn)證、迭代、磨合,加上配套驅(qū)動(dòng)開發(fā),一直到2024年,LG200才最終完工,用于這次發(fā)布的龍芯2K3000/3B6000M。
從路線圖上看,它也會(huì)有一個(gè)迭代升級(jí)版本LG210.預(yù)計(jì)會(huì)在后期的龍芯2K3000/3B6000M中使用。
龍芯2K3000/3B6000M中集成的LG200 GPU,圖形性能有了成倍的提高,像素填充率從2GP/s提高到4GP/s,紋理填充率從2GT/s提高到8GT/s,還支持OpenGL 3.3、OpenGL ES 3.1、OpenCL 1.1.
LG200還初步支持通用計(jì)算加速和AI加速,運(yùn)行目標(biāo)識(shí)別等AI任務(wù)、大語言模型等都沒有問題。
這可以說是龍芯的第一款GPGPU產(chǎn)品,官方宣稱900MHz頻率下FP16單精度浮點(diǎn)性能230.4 GFlops(2304億次每秒)、INT8整數(shù)性能7.2 TOPS(7.2萬億次每秒)。
事實(shí)上,它的頻率最高可以達(dá)到2.2-2.5GHz,適當(dāng)開放頻率的話FP16浮點(diǎn)、INT8整數(shù)性能分別可以達(dá)到256 GFlops、8 TOPS。
GPGPU可以說是圖形處理器歷史發(fā)展的第四個(gè)階段,將通用計(jì)算、圖形渲染合為一體,一肩挑,這也是現(xiàn)代GPU的基礎(chǔ)特性。
對(duì)于龍芯來說,CPU補(bǔ)課基本完成,GPU依然還在補(bǔ)課階段,尤其是API支持,之前落后太多,下一步將逐步支持OpenGL 3.2/4.0、OpenCL 3.0(雖然它已經(jīng)基本涼涼),并加入新的Vulkan 1.1.
什么?你說DirectX?這是個(gè)封閉標(biāo)準(zhǔn),純自研的國(guó)產(chǎn)GPU暫時(shí)還做不到,除非買Imagination PowerVR之類的國(guó)外IP授權(quán)。
性能方面,龍芯GPU將首先繼續(xù)升級(jí)架構(gòu),全面實(shí)現(xiàn)基本功能,然后擴(kuò)展功能和性能,全面優(yōu)化挖潛,逐步實(shí)現(xiàn)圖形流水線、計(jì)算性能的可擴(kuò)展,大力提高能效比、單位面積性能。
這就是龍芯說的“先通后?!钡陌l(fā)展路線,也就是先做好通用的GPU,再做好專用的GPGPU,尤其是在AI方面,當(dāng)然現(xiàn)階段主要面向端側(cè)的AI推理,滿足日常應(yīng)用。
至于云側(cè)的AI訓(xùn)練,那是AI加速卡的工作,龍芯至少目前不考慮。
龍芯未來的GPGPU也要分為三步走,并開啟一個(gè)全新的龍芯9A系列,也可以叫LG300系列。
龍芯GPGPU的架構(gòu)設(shè)計(jì),看起來和NVIDIA的頗為相似,也是分為多個(gè)GPC(圖形處理集群),彼此通過L1N網(wǎng)絡(luò)互連。
所有GPC加上二級(jí)緩存,通過L2N網(wǎng)絡(luò)連接各個(gè)頂層模塊,包括內(nèi)存控制器、指令處理器、顯示控制器、視頻編解碼控制器、PCIe控制器。
不同硅片之間,還可以通過LCL龍鏈進(jìn)行互連,大大擴(kuò)充芯片規(guī)模和性能。
再深入來看,GPC內(nèi)部由一條GP圖形流水線、多個(gè)SP流處理器組成,而每個(gè)流處理包括一個(gè)紋理單元、多個(gè)矢量單元,而每個(gè)矢量單元又包括16個(gè)FP16單精度浮點(diǎn)單元、1個(gè)FP32雙精度浮點(diǎn)單元、1個(gè)Tensor張量單元(就差A(yù)I單元了)。
每個(gè)單元的性能指標(biāo),也都已經(jīng)確定。
需要強(qiáng)調(diào)的是,龍芯GPGPU雖然自研,但并不封閉,原則就是兼容主流、擁抱開源。
作為一套加速計(jì)算平臺(tái),龍芯GPGPU將具備全方位的能力,計(jì)算API方面不但支持傳統(tǒng)的OpenCL,更是提出了兼容CUDA(暫不清楚會(huì)如何做到),可支撐訓(xùn)練、推理、微調(diào)等全場(chǎng)景AI,覆蓋云側(cè)、邊緣側(cè)、端側(cè)全領(lǐng)域。
此外,圖形API會(huì)緊跟OpenGL、Vulkan兩大行業(yè)主流,視頻編解碼加速支持會(huì)逐漸覆蓋更多格式。
龍芯9A1000:
已經(jīng)進(jìn)入設(shè)計(jì)尾聲階段,即將完成流片,2026年推出。
這將是龍芯首款GPGPU專用芯片,通過它初步走通和驗(yàn)證設(shè)計(jì)思路,可用于獨(dú)立顯卡、AI加速卡。
它的定位比較低,成本也比較低,性能大致相當(dāng)于AMD 7年前的入門顯卡RX 550.但已經(jīng)支持曲面細(xì)分、計(jì)算著色器等特性,不過圖形API僅支持到OpenGL 4.0(RX 550 OpenGL 4.6)。
集成視頻編解碼模塊,支持最常見的H.264、H.265.
AI推理性能方面,預(yù)計(jì)INT8整數(shù)格式下達(dá)到32-40 TOPS。
龍芯9A2000:
2027年推出,將達(dá)到主流性能,實(shí)現(xiàn)完整功能,用于桌面和服務(wù)器。
通過架構(gòu)優(yōu)化、堆料雙管齊下,大力提升性能單位比,整體性能可以提升大約4倍,比如FP16浮點(diǎn)達(dá)到5 TFlops,INT8整數(shù)達(dá)到160 TOPS。
它還將首次支持雙硅片互連,性能再翻一倍,達(dá)到同工藝下的國(guó)際先進(jìn)水平。
圖形API方面終于可以支持到OpenGL 4.6.張量單元支持包括BF16在內(nèi)的更多數(shù)據(jù)格式,還加入虛擬化支持。
龍芯9A3000:
暫無時(shí)間表,將首次沖擊高端高性能,工藝和龍芯CPU一樣演進(jìn)到xnm,頻率有望得以大幅提升,性能再次實(shí)現(xiàn)3-5倍的躍升。
江蘇蘇訊網(wǎng)版權(quán)及免責(zé)聲明:凡本網(wǎng)注明“來源:XXX(非江蘇蘇訊網(wǎng))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。 如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,本網(wǎng)按規(guī)定給予一定的稿費(fèi)或要求直接刪除,請(qǐng)致電025-86163400 ,聯(lián)系郵箱:724922822@qq.com。