GPU-urile din seria RTX 3000 de la NVIDIA: iată ce este nou

La data de 1 septembrie 2020, NVIDIA a lansat o nouă serie de unități de procesare grafică (GPU) dedicate gamingului, seria RTX 3000, care are la bază arhitectura Ampere. În cele ce urmează, vom analiza inovațiile aduse, software-ul bazat pe inteligență artificială inclus și caracteristicile care fac din această generație una remarcabilă.

Prezentarea GPU-urilor din seria RTX 3000

Anunțul principal al NVIDIA a fost reprezentat de noile sale GPU-uri, toate construite pe un proces de fabricație de 8 nm și oferind îmbunătățiri semnificative atât în performanța de rasterizare, cât și în cea de ray tracing.

În segmentul de intrare, se poziționează RTX 3070, cu un preț de 499 USD. Deși poate părea costisitor pentru cel mai accesibil model dezvăluit de NVIDIA la lansare, devine o opțiune extrem de atractivă odată ce se descoperă că depășește performanțele RTX 2080 Ti, o placă de top care se vindea frecvent cu peste 1400 USD. În urma anunțului NVIDIA, prețurile de vânzare ale terților au scăzut, multe dintre aceste plăci fiind vândute pe platforme online la prețuri sub 600 USD.

Nu există date de referință precise din momentul anunțului, deci nu este clar dacă placa este cu adevărat obiectiv „mai performantă” decât un 2080 Ti sau dacă NVIDIA a exagerat puțin aspectul de marketing. Testele comparative rulate au fost la rezoluție 4K și probabil cu ray tracing activat, ceea ce poate face ca diferența să pară mai mare decât va fi în jocurile pur rasterizate, deoarece seria 3000 bazată pe Ampere va funcționa de două ori mai bine la ray tracing comparativ cu generația Turing. Cu toate acestea, având în vedere că ray tracing-ul nu mai afectează atât de mult performanța și este susținut de cea mai recentă generație de console, este un argument important de vânzare că poate rula la fel de repede ca modelul de top al generației anterioare la aproape o treime din preț.

De asemenea, nu este sigur dacă prețul va rămâne stabil. Modelele de la terți adaugă de obicei cel puțin 50 de dolari la preț, și având în vedere cererea mare anticipată, nu ar fi surprinzător să le vedem vândute cu 600 de dolari în octombrie 2020.

Urmează RTX 3080 la 699 USD, care ar trebui să fie de două ori mai rapidă decât RTX 2080 și cu aproximativ 25-30% mai performantă decât 3070.

În vârful gamei se află noul flagship RTX 3090, o placă de dimensiuni considerabile. NVIDIA o numește „BFGPU”, prescurtare pentru „Big Ferocious GPU”.

NVIDIA nu a prezentat măsurători directe de performanță, dar a demonstrat rularea jocurilor 8K la 60 FPS, ceea ce este impresionant. Desigur, NVIDIA utilizează aproape sigur DLSS pentru a atinge acest nivel, dar jocurile 8K sunt oricum remarcabile.

Evident, în timp vor apărea și un 3060 și alte variante de plăci mai accesibile, dar acestea sunt lansate de obicei ulterior.

Pentru a asigura o răcire eficientă, NVIDIA a fost nevoită să reproiecteze sistemul de răcire. Modelul 3080 are un consum de 320 de wați, ceea ce reprezintă o valoare destul de mare, așa că NVIDIA a optat pentru un design cu două ventilatoare. În loc ca ambele ventilatoare să fie amplasate în partea inferioară, NVIDIA a plasat un ventilator în partea de sus, unde în mod normal se află placa din spate. Acesta direcționează aerul în sus, către radiatorul CPU și partea superioară a carcasei.

Judecând după impactul unui flux de aer deficitar asupra performanței într-o carcasă, această abordare este logică. Cu toate acestea, din această cauză, placa de circuit este mai aglomerată, ceea ce va afecta probabil prețurile de vânzare ale terților.

DLSS: Un avantaj software

Ray tracing nu este singurul beneficiu al acestor noi plăci. De fapt, totul este un mic artificiu – seriile RTX 2000 și 3000 nu sunt cu mult mai performante în a rula ray tracing în mod direct comparativ cu generațiile anterioare de plăci. Ray tracing-ul unei scene complete în software-uri 3D, cum ar fi Blender, durează de obicei câteva secunde sau chiar minute per cadru, deci rularea acesteia în mai puțin de 10 milisecunde este exclusă.

Desigur, există hardware dedicat pentru efectuarea calculelor ray tracing, numite nuclee RT, dar NVIDIA a adoptat o abordare diferită. NVIDIA a îmbunătățit algoritmii de reducere a zgomotului, care permit GPU-urilor să genereze o singură redare rapidă, care arată inițial slab, și prin inteligență artificială, o transformă într-o imagine satisfăcătoare pentru un jucător. Atunci când este combinat cu tehnici tradiționale bazate pe rasterizare, oferă o experiență plăcută îmbunătățită de efectele de raytracing.

Pentru a accelera acest proces, NVIDIA a inclus nuclee de procesare AI specifice, numite nuclee Tensor. Acestea gestionează toate calculele necesare pentru rularea modelelor de învățare automată, și o fac foarte rapid. Aceste nuclee reprezintă o schimbare majoră pentru inteligența artificială în mediul serverelor cloud, deoarece AI este utilizată pe scară largă de multe companii.

Dincolo de reducerea zgomotului, principala utilizare a nucleelor Tensor pentru jucători este DLSS, sau deep learning super-sampling. DLSS ia un cadru de calitate inferioară și îl mărește la o calitate nativă completă. Aceasta înseamnă că puteți juca cu rate de cadre la nivel de 1080p, în timp ce vizualizați o imagine 4K.

DLSS ajută, de asemenea, destul de mult performanța ray-tracing – testele de la PCMag indică un RTX 2080 Super care rulează Control la calitate ultra, cu toate setările ray-tracing activate la maxim. La 4K, performanța este de doar 19 FPS, dar cu DLSS activat, atinge un nivel mult mai bun de 54 FPS. DLSS este performanță suplimentară oferită gratuit de NVIDIA, posibilă datorită nucleelor Tensor de pe Turing și Ampere. Orice joc care îl acceptă și este limitat de GPU poate obține îmbunătățiri semnificative doar din software.

DLSS nu este o tehnologie nouă, fiind anunțată odată cu lansarea seriei RTX 2000, acum doi ani. La acea vreme, era susținut de foarte puține jocuri, deoarece NVIDIA trebuia să antreneze și să ajusteze un model de învățare automată pentru fiecare joc în parte.

Între timp, NVIDIA a rescris-o complet, denumind noua versiune DLSS 2.0. Aceasta este un API de uz general, ceea ce înseamnă că orice dezvoltator îl poate implementa, și este deja adoptat de majoritatea lansărilor importante. În loc să lucreze pe un singur cadru, preia date vectoriale în mișcare din cadrul anterior, similar cu TAA. Rezultatul este mult mai clar decât DLSS 1.0 și, în unele cazuri, arată mai bine și mai clar decât rezoluția nativă, deci nu există multe motive să nu îl activați.

Există totuși o problemă: atunci când se schimbă scenele, cum ar fi în scenele filmate, DLSS 2.0 trebuie să redea primul cadru la o calitate de 50%, în timp ce așteaptă datele vectorului de mișcare. Acest lucru poate duce la o mică scădere a calității pentru câteva milisecunde. Dar, 99% din ceea ce vizualizați va fi redat corect și majoritatea oamenilor nu observă acest lucru în practică.

Arhitectura Ampere: Construită pentru AI

Ampere este rapid. Foarte rapid, în special la calculele AI. Nucleul RT este de 1,7 ori mai rapid decât pe Turing, iar noul nucleu Tensor este de 2,7 ori mai rapid. Combinația dintre cele două reprezintă un salt generațional în performanța ray tracing.

La începutul acestei luni mai, NVIDIA a lansat GPU-ul Ampere A100, un GPU pentru centre de date conceput pentru rularea inteligenței artificiale. Odată cu acesta, au fost oferite multe detalii despre caracteristicile care fac Ampere atât de rapid. Pentru centrele de date și sarcinile de calcul de înaltă performanță, Ampere este, în general, de aproximativ 1,7 ori mai rapid decât Turing. Pentru antrenamentul AI, este de până la 6 ori mai rapid.

Cu Ampere, NVIDIA utilizează un nou format de numere, conceput pentru a înlocui standardul industrial „Floating-Point 32” sau FP32, în anumite sarcini de lucru. În esență, fiecare număr pe care computerul dvs. îl procesează ocupă un număr predefinit de biți în memorie, fie că sunt 8 biți, 16 biți, 32, 64 sau chiar mai mult. Numerele mai mari sunt mai greu de procesat, deci dacă se poate utiliza o dimensiune mai mică, veți avea mai puține date de procesat.

FP32 stochează un număr zecimal de 32 de biți și utilizează 8 biți pentru intervalul numărului (cât de mare sau mic poate fi) și 23 de biți pentru precizie. NVIDIA susține că acești 23 de biți de precizie nu sunt absolut necesari pentru multe sarcini de lucru AI și se pot obține rezultate similare și performanțe mult mai bune cu doar 10 dintre aceștia. Reducerea dimensiunii la doar 19 biți, în loc de 32, face o mare diferență în multe calcule.

Acest nou format se numește Tensor Float 32, iar nucleele Tensor din A100 sunt optimizate pentru a gestiona acest format. Aceasta, alături de reducerea dimensiunii matriței și de creșterea numărului de nuclee, este modul în care se obține o accelerare masivă de 6 ori în antrenamentul AI.

Pe lângă noul format de numere, Ampere înregistrează îmbunătățiri semnificative de performanță în calcule specifice, cum ar fi FP32 și FP64. Acestea nu se transpun direct în mai mulți FPS pentru un utilizator obișnuit, dar contribuie la performanța de aproape trei ori mai rapidă în operațiunile Tensor.

Pentru a accelera și mai mult calculele, a fost introdus conceptul de sparsitate structurată cu granulație fină, o denumire sofisticată pentru un concept simplu. Rețelele neuronale funcționează cu liste mari de numere, denumite ponderi, care influențează rezultatul final. Cu cât este mai mare numărul de date de procesat, cu atât procesarea va fi mai lentă.

Însă, nu toate aceste numere sunt utile. Unele dintre ele sunt zero și pot fi eliminate, ceea ce duce la accelerări considerabile când se pot procesa mai multe numere simultan. Sparsitatea comprimă numerele, reducând efortul necesar pentru calcule. Noul „Sparse Tensor Core” este conceput pentru a funcționa cu date comprimate.

În ciuda acestor modificări, NVIDIA afirmă că acuratețea modelelor antrenate nu ar trebui să fie afectată.

Pentru calcule Sparse INT8, unul dintre cele mai mici formate de numere, performanța maximă a unui singur GPU A100 este de peste 1,25 PetaFLOP, un număr extrem de mare. Desigur, acest lucru este valabil doar în cazul unui anumit format de numere, dar este totuși impresionant.