Caractéristiques
Date de sortie
14 mai 2020
Procédé
TSMC N7 (professionnel) Samsung 8N (grand public)
Interfaces supportées
Direct3D
12
OpenGL
4.6
Vulkan
1.1
CUDA (Compute Capability)
8.0 ou 8.6
modifier
Ampere est une microarchitecture de processeur graphique développée par Nvidia pour ses cartes graphiques . Elle succède à la microarchitecture Turing et est sortie en mai 2020.
Les améliorations architecturales de l'architecture Ampere comprennent :
CUDA Compute Capability 8.0 pour le A100 et 8.6 pour les cartes GeForce 30 series [ 1] ;
Procédé 7 nm FinFET de TSMC pour le A100 ;
Version customisée du procédé 8 nm (8N) de Samsung pour les GeForce 30 series[ 2] ;
Troisième génération de coeurs Tensor supportant le FP16 , le bfloat16 (en) , le TensorFloat-32 (TF32) et le FP64, ainsi que l'accélération du traitement des matrices creuses[ 3] . Les coeurs Tensor ont, avec 256 opérations FMA FP16 par cycle, 4 fois la puissance de calcul (seulement sur le GA100, 2 fois sur les GA10x) des générations précédentes de coeurs Tensor ; le nombre de coeurs Tensor est de quatre par SM (Streaming Multiprocessor ) ;
Double coeur FP32 par SM sur les GPU GA10x ;
Deuxième génération de coeurs ray tracing ; ray tracing concurrent, ombrage et compute sur les cartes GeForce 30 ;
Mémoire HBM2 sur les A100 40 GB & A100 80 GB ;
Mémoire GDDR6X sur les cartes GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti ;
NVLink 3.0 avec un débit de 50 Gbit/s par paire[ 3] ;
PCI Express 4.0 avec support de SR-IOV (en) (uniquement sur le A100)
Virtualisation Multi-instance GPU (MIG) avec possibilité de partitionnement du GPU supportant jusqu'à sept instances sur le A100 ;
Décodage vidéo hardware PureVideo (en) comprenant l'ensemble de caractéristiques K et le décodage hardware de AV1 [ 4] pour les cartes GeForce 30 series et l'ensemble de caractéristiques J pour le A100 ;
5 décodeurs vidéo NVDEC (en) pour le A100 ;
Nouveau décodeur JPEG hardware à 5 coeurs (NVJPG ) avec YUV420, YUV422, YUV444, YUV400, RGBA. Il ne doit pas être confondu avec le NVJPEG de Nvidia (bibliothèque accélérée par GPU pour le codage/décodage JPEG).
GA100[ 5]
GA102
GA103
GA104
GA106
GA107
Puce
GA100[ 6]
GA102[ 7]
GA103[ 8]
GA104[ 9]
GA106[ 10]
GA107[ 11]
GA10B[ 12]
GA10F
Taille de puce (mm2 )
826
628
496
392
276
200
?
?
Nb. transistors (milliards)
54.2
28.3
22
17.4
12
8.7
?
?
Densité de transistors (MTr/mm2 )
65,6
45,1
44,4
44,4
43,5
43,5
?
?
Nb. Graphics processing clusters
8
7
6
6
3
2
2
1
Nb. Streaming multiprocessors
128
84
60
48
30
20
16
12
Nb. coeurs CUDA
12288
10752
7680
6144
3480
2560
2048
1536
Nb. TMU
512
336
240
192
120
80
64
48
Nb. ROP
192
112
96
96
48
32
32
16
Nb. coeurs tenseur
512
336
240
192
120
80
64
48
coeurs RT
N/A
84
60
48
30
20
8
12
Cache L1
24 Mo
10.5 Mo
7.5 Mo
6 Mo
3 Mo
2.5 Mo
3 Mo
1.5 Mo
192 ko par SM
128 ko par SM
192 ko par SM
128 ko par SM
Cache L2 (Mo)
40
6
4
4
3
2
4
?
GPU
NVIDIA Tesla P100
NVIDIA Tesla V100
NVIDIA A100
Code du GPU
GP100
GV100
GA100
Architecture GPU
NVIDIA Pascal
NVIDIA Volta
NVIDIA Ampere
Compute capability
6.0
7.0
8.0
Threads / warp
32
32
32
Max warps / SM
64
64
64
Max threads / SM
2048
2048
2048
Max thread blocks / SM
32
32
32
Max 32-bit registers / SM
65536
65536
65536
Max registers / block
65536
65536
65536
Max registers / thread
255
255
255
Max thread block size
1024
1024
1024
FP32 cores / SM
64
64
64
Ratio of SM registers to FP32 cores
1024
1024
1024
Taille de la mémoire partagée / SM
64 KB
Configurable jusqu'à 96 KB
Configurable jusqu'à 164 KB
Formats supportés par les coeurs CUDA
Formats supportés par les coeurs Tensor
FP16
FP32
FP64
INT1
INT4
INT8
TF32
BF16
FP16
FP32
FP64
INT1
INT4
INT8
TF32
BF16
NVIDIA Tesla P4
Non
Oui
Oui
Non
Non
Oui
Non
Non
Non
Non
Non
Non
Non
Non
Non
Non
NVIDIA P100
Oui
Oui
Oui
Non
Non
Non
Non
Non
Non
Non
Non
Non
Non
Non
Non
Non
NVIDIA Volta
Oui
Oui
Oui
Non
Non
Oui
Non
Non
Oui
Non
Non
Non
Non
Non
Non
Non
NVIDIA Turing
Oui
Oui
Oui
Non
Non
Non
Non
Non
Oui
Non
Non
Oui
Oui
Oui
Non
Non
NVIDIA A100
Oui
Oui
Oui
Non
Non
Oui
Non
Oui
Oui
Non
Oui
Oui
Oui
Oui
Oui
Oui
Légende :
FPnn : virgule flottante avec nn bits
INTn : entier avec n bits
INT1 : binaire
TF32 : TensorFloat32
BF16 : bfloat16
Flux concurrents
Décodage H.264 (1080p30)
Décodage H.265 (HEVC) (1080p30)
Décodage VP9 (1080p30)
V100
16
22
22
A100
75
157
108
↑ (en-US) « I.7. Compute Capability 8.x », sur Nvidia (consulté le 23 septembre 2020 )
↑ (en-US) Dominik Bosnjak , « Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards », sur SamMobile , 1er septembre 2020 (consulté le 19 septembre 2020 )
↑ a et b (en) Smith, « NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator », sur AnandTech , 14 mai 2020
↑ (en-US) Gerardo Delgado , « GeForce RTX 30 Series GPUs: Ushering In A New Era of Video Content With AV1 Decode », sur Nvidia , 1er septembre 2020 (consulté le 9 avril 2023 )
↑ (en-US) Timothy Prickett Morgan , « Diving Deep Into The Nvidia Ampere GPU Architecture », sur The Next Platform , 29 mai 2020 (consulté le 24 mars 2022 )
↑ (en-US) « NVIDIA A100 Tensor Core GPU Architecture », sur NVIDIA Corporation (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA GA102 GPU Specs », sur TechPowerUp (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA GA103 GPU Specs », sur TechPowerUp (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA GA104 GPU Specs », sur TechPowerUp (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA GA106 GPU Specs », sur TechPowerUp (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA GA107 GPU Specs », sur TechPowerUp (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA AGX Orin Series Technical Brief v1.2 », sur NVIDIA Corporation (consulté le 29 avril 2024 )
↑ (en-US) « NVIDIA A100 Tensor Core GPU Architecture: Unprecedented Accerlation at Every Scale », sur Nvidia (consulté le 18 septembre 2020 )
↑ (en) « NVIDIA Tensor Cores: Versatility for HPC & AI », sur NVIDIA
↑ (en) « Abstract », sur docs.nvidia.com
Processeur graphique
Premiers Chipsets
Série RIVA
Série GeForce
Architectures
Autres séries
GPU pour console
Électronique grand public
Chipsets nForce
Technologies
Logiciels