Nommée d’après le statisticien et mathématicien David Blackwell, l’architecture Blackwell a fait l’objet d’une fuite en 2022 et les GPU B100 et B40 ont été officiellement révélés en octobre 2023 dans une feuille de route officielle de Nvidia lors d’une présentation aux investisseurs de Nvidia[1] et ont été officiellement annoncés lors de la keynote Nvidia GTC 2024 le 18 mars 2024[2].
Histoire
En mars 2022, Nvidia a annoncé l'architecture Hopper destinée au centres de données des accélérateurs d'IA. La demande pour les produits Hopper a été élevée tout au long de l’engouement pour l’IA en 2023[3]. Le délai entre la commande et la livraison des serveurs basés sur H100 était compris entre 36 et 52 semaines en raison des pénuries et de la forte demande[4]. Nvidia aurait vendu 500 000 accélérateurs H100 basés sur Hopper au cours du seul troisième trimestre 2023[4]. La domination de Nvidia sur l’IA avec les produits Hopper a conduit à l'augmentation de la capitalisation boursière de la société à plus de 2 000 milliards de dollars, derrière Microsoft et Apple[5].
Lors de la présentation aux investisseurs de Nvidia en octobre 2023, sa feuille de route pour les centres de données a été mise à jour pour inclure une référence à ses accélérateurs B100 et B40 et à l’architecture Blackwell[7],[8]. Auparavant, le successeur de Hopper était simplement nommé sur les feuilles de route comme « Hopper-Next ». La feuille de route mise à jour de Nvidia a mis l'accent sur le passage d’une cadence de sortie de deux ans pour les produits de centre de données à des versions annuelles ciblées pour les systèmes x86 et ARM.
Lors de la Graphics Technology Conference (GTC) du 18 mars 2024, Nvidia a officiellement annoncé l'architecture Blackwell en mettant l’accent sur ses accélérateurs pour centres de données B100 et B200. Le PDG de Nvidia, Jensen Huang, a déclaré qu'avec Blackwell, « nous avons créé un processeur pour l'ère de l'IA générative » et a mis l'accent sur la plate-forme globale Blackwell combinant les accélérateurs Blackwell avec le processeur Grace basé sur ARM de Nvidia[9],[10]. Nvidia a vanté les soutiens de Blackwell de la part des PDG de Google, Meta, Microsoft, OpenAI et Oracle[10].
Architecture
Blackwell est une architecture conçue à la fois pour les applications de calcul de centre de données et pour les applications de jeu et de station de travail avec des puces dédiées à chaque usage. La puce GB100 est destinée aux produits de centre de données Blackwell, tandis que la puce de la série GB200 sera utilisée pour les cartes graphiques GeForce RTX série 50.
Procédé de fabrication (process node)
Blackwell est fabriqué avec le procédé 4NP personnalisé de TSMC. 4NP est une amélioration du nœud 4N utilisé pour les architectures Hopper et Ada Lovelace avec une augmentation de la densité de transistors. Avec le nœud 4NP amélioré, la puce GB100 contient 104 milliards de transistors, soit une augmentation de 30 % par rapport aux 80 milliards de transistors de la puce Hopper GH100 de la génération précédente[11]. Étant donné que Blackwell ne peut pas tirer parti des avantages qui découlent d’une avancée majeure en matière de process node, elle doit réaliser des gains d’efficacité énergétique et de performance grâce à des modifications architecturales internes[12].
La puce GB100 est à la limite de réticule de la fabrication de semi-conducteurs[13]. La limite de réticule dans la fabrication de semi-conducteurs est la limite de taille physique des puces de silicium que les machines de lithographie peuvent graver. Auparavant, Nvidia avait presque atteint la limite de réticule de TSMC avec la matrice de 814 mm2 du GH100. Afin de ne pas être limité par la taille de la puce, l’accélérateur B100 de Nvidia utilise deux puces GB100 dans un seul boîtier, connectées par une liaison à 10 To/s que Nvidia appelle l’interface NV-High Bandwidth Interface (NV-HBI). NV-HBI est basé sur le protocole NVLink 5.0. L’ensemble à double puce totalise 208 milliards de transistors[13]. Ces deux puces GB100 sont placées sur le dessus d'un interposeur(en) en silicium produit à l’aide de la technique d'encapsulation CoWoS-L 2.5D de TSMC[14].
CUDA Compute Capability 10.0 est ajouté avec Blackwell.
Cœurs Tensor
L’architecture Blackwell introduit des cœurs Tensor de cinquième génération pour le calcul de l’IA et l’exécution de calculs en virgule flottante. Pour les centres de données, Blackwell ajoute la prise en charge des types de données FP4 et FP6 avec un traitement en virgule flottante en octuple précision[15]. L’architecture Hopper précédente introduisait le moteur de transformeur (Transformer Engine) pour diviser les données FP32 en FP8 afin d’augmenter le débit de calcul de pointe. Le moteur de transformateur de deuxième génération de Blackwell permet de diviser davantage le FP32, ce qui permet de doubler les performances de calcul en FP8. L’utilisation de données 4 bits permet d’améliorer l’efficacité et le débit d'inférence du modèle lors de l’entraînement de l’IA générative[12]. Nvidia revendique 20 pétaflops de calcul en FP4 avec l’accélérateur B100 à double puce GB100[16].