Ampere (microarchitecture)

NVIDIA Ampere
Description de l'image Nvidia (logo).svg.
Caractéristiques
Date de sortie 14 mai 2020
Procédé TSMC N7 (professionnel)
Samsung 8N (grand public)
Interfaces supportées
Direct3D 12
OpenGL 4.6
Vulkan 1.1
CUDA (Compute Capability) 8.0 ou 8.6
Historique
Prédécesseur Turing (grand public)
Volta (professionnel)
Successeur Ada Lovelace (grand public)
Hopper (professionnel)

Ampere est une microarchitecture de processeur graphique développée par Nvidia pour ses cartes graphiques. Elle succède à la microarchitecture Turing et est sortie en mai 2020.

Caractéristiques

[modifier | modifier le code]

Les améliorations architecturales de l'architecture Ampere comprennent :

  • CUDA Compute Capability 8.0 pour le A100 et 8.6 pour les cartes GeForce 30 series[1] ;
  • Procédé 7 nm FinFET de TSMC pour le A100 ;
  • Version customisée du procédé 8 nm (8N) de Samsung pour les GeForce 30 series[2] ;
  • Troisième génération de coeurs Tensor supportant le FP16, le bfloat16 (en), le TensorFloat-32 (TF32) et le FP64, ainsi que l'accélération du traitement des matrices creuses[3]. Les coeurs Tensor ont, avec 256 opérations FMA FP16 par cycle, 4 fois la puissance de calcul (seulement sur le GA100, 2 fois sur les GA10x) des générations précédentes de coeurs Tensor ; le nombre de coeurs Tensor est de quatre par SM (Streaming Multiprocessor) ;
  • Double coeur FP32 par SM sur les GPU GA10x ;
  • Deuxième génération de coeurs ray tracing ; ray tracing concurrent, ombrage et compute sur les cartes GeForce 30 ;
  • Mémoire HBM2 sur les A100 40 GB & A100 80 GB ;
  • Mémoire GDDR6X sur les cartes GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti ;
  • NVLink 3.0 avec un débit de 50 Gbit/s par paire[3] ;
  • PCI Express 4.0 avec support de SR-IOV (en) (uniquement sur le A100)
  • Virtualisation Multi-instance GPU (MIG) avec possibilité de partitionnement du GPU supportant jusqu'à sept instances sur le A100 ;
  • Décodage vidéo hardware PureVideo (en) comprenant l'ensemble de caractéristiques K et le décodage hardware de AV1[4] pour les cartes GeForce 30 series et l'ensemble de caractéristiques J pour le A100 ;
  • 5 décodeurs vidéo NVDEC (en) pour le A100 ;
  • Nouveau décodeur JPEG hardware à 5 coeurs (NVJPG) avec YUV420, YUV422, YUV444, YUV400, RGBA. Il ne doit pas être confondu avec le NVJPEG de Nvidia (bibliothèque accélérée par GPU pour le codage/décodage JPEG).
  • GA100[5]
  • GA102
  • GA103
  • GA104
  • GA106
  • GA107
Puce GA100[6] GA102[7] GA103[8] GA104[9] GA106[10] GA107[11] GA10B[12] GA10F
Taille de puce (mm2) 826 628 496 392 276 200 ? ?
Nb. transistors (milliards) 54.2 28.3 22 17.4 12 8.7 ? ?
Densité de transistors (MTr/mm2) 65,6 45,1 44,4 44,4 43,5 43,5 ? ?
Nb. Graphics processing clusters 8 7 6 6 3 2 2 1
Nb. Streaming multiprocessors 128 84 60 48 30 20 16 12
Nb. coeurs CUDA 12288 10752 7680 6144 3480 2560 2048 1536
Nb. TMU 512 336 240 192 120 80 64 48
Nb. ROP 192 112 96 96 48 32 32 16
Nb. coeurs tenseur 512 336 240 192 120 80 64 48
coeurs RT N/A 84 60 48 30 20 8 12
Cache L1 24 Mo 10.5 Mo 7.5 Mo 6 Mo 3 Mo 2.5 Mo 3 Mo 1.5 Mo
192 ko
par SM
128 ko par SM 192 ko
par SM
128 ko
par SM
Cache L2 (Mo) 40 6 4 4 3 2 4 ?

Comparaison des capacités de calcul : GP100 vs GV100 vs GA100[13]

[modifier | modifier le code]
GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100
Code du GPU GP100 GV100 GA100
Architecture GPU NVIDIA Pascal NVIDIA Volta NVIDIA Ampere
Compute capability 6.0 7.0 8.0
Threads / warp 32 32 32
Max warps / SM 64 64 64
Max threads / SM 2048 2048 2048
Max thread blocks / SM 32 32 32
Max 32-bit registers / SM 65536 65536 65536
Max registers / block 65536 65536 65536
Max registers / thread 255 255 255
Max thread block size 1024 1024 1024
FP32 cores / SM 64 64 64
Ratio of SM registers to FP32 cores 1024 1024 1024
Taille de la mémoire partagée / SM 64 KB Configurable jusqu'à 96 KB Configurable jusqu'à 164 KB

Tableau de comparaison des formats numériques supportés[14],[15]

[modifier | modifier le code]
Formats supportés par les coeurs CUDA Formats supportés par les coeurs Tensor
FP16 FP32 FP64 INT1 INT4 INT8 TF32 BF16 FP16 FP32 FP64 INT1 INT4 INT8 TF32 BF16
NVIDIA Tesla P4  Non Oui Oui  Non  Non Oui  Non  Non  Non  Non  Non  Non  Non  Non  Non  Non
NVIDIA P100 Oui Oui Oui  Non  Non  Non  Non  Non  Non  Non  Non  Non  Non  Non  Non  Non
NVIDIA Volta Oui Oui Oui  Non  Non Oui  Non  Non Oui  Non  Non  Non  Non  Non  Non  Non
NVIDIA Turing Oui Oui Oui  Non  Non  Non  Non  Non Oui  Non  Non Oui Oui Oui  Non  Non
NVIDIA A100 Oui Oui Oui  Non  Non Oui  Non Oui Oui  Non Oui Oui Oui Oui Oui Oui

Légende :

  • FPnn : virgule flottante avec nn bits
  • INTn : entier avec n bits
  • INT1 : binaire
  • TF32 : TensorFloat32
  • BF16 : bfloat16

Comparaison des performances en décodage vidéo

[modifier | modifier le code]
Flux concurrents Décodage H.264
(1080p30)
Décodage H.265 (HEVC)
(1080p30)
Décodage VP9
(1080p30)
V100 16 22 22
A100 75 157 108

Notes et références

[modifier | modifier le code]
  1. (en-US) « I.7. Compute Capability 8.x », sur Nvidia (consulté le )
  2. (en-US) Dominik Bosnjak, « Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards », sur SamMobile, (consulté le )
  3. a et b (en) Smith, « NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator », sur AnandTech,
  4. (en-US) Gerardo Delgado, « GeForce RTX 30 Series GPUs: Ushering In A New Era of Video Content With AV1 Decode », sur Nvidia, (consulté le )
  5. (en-US) Timothy Prickett Morgan, « Diving Deep Into The Nvidia Ampere GPU Architecture », sur The Next Platform, (consulté le )
  6. (en-US) « NVIDIA A100 Tensor Core GPU Architecture », sur NVIDIA Corporation (consulté le )
  7. (en-US) « NVIDIA GA102 GPU Specs », sur TechPowerUp (consulté le )
  8. (en-US) « NVIDIA GA103 GPU Specs », sur TechPowerUp (consulté le )
  9. (en-US) « NVIDIA GA104 GPU Specs », sur TechPowerUp (consulté le )
  10. (en-US) « NVIDIA GA106 GPU Specs », sur TechPowerUp (consulté le )
  11. (en-US) « NVIDIA GA107 GPU Specs », sur TechPowerUp (consulté le )
  12. (en-US) « NVIDIA AGX Orin Series Technical Brief v1.2 », sur NVIDIA Corporation (consulté le )
  13. (en-US) « NVIDIA A100 Tensor Core GPU Architecture: Unprecedented Accerlation at Every Scale », sur Nvidia (consulté le )
  14. (en) « NVIDIA Tensor Cores: Versatility for HPC & AI », sur NVIDIA
  15. (en) « Abstract », sur docs.nvidia.com

Articles connexes

[modifier | modifier le code]