« Hi, welcome to NVIDIA GTC 2020, our first kitchen Keynote »
Une keynote depuis la cuisine du PDG de NVIDIA

C’est sur ces paroles que s’est ouverte la 11ème édition de l’évènement de référence dans le monde de l’IA : le GTC, ou GPU Technologie Conference, organisé chaque année par Nvidia.

L’an passé, cette semaine de conférences (plus de 600 !) a accueilli près de 9000 développeurs, chercheurs et chefs d’entreprises au cœur de la Silicon Valley. Lockdown oblige, l’édition 2020 offre la particularité de se dérouler uniquement en ligne. C’est également le cas de la Keynote d’ouverture, retransmise en direct sur Youtube.

Et si comme chaque année, le maître de cérémonie reste le PDG de Nvidia Jenson Huang, cette édition 2020 n’est pas sans créer une rupture : loin du stadium rempli à bloc pour un show à l’américaine de 3H de 2019, c’est depuis la cuisine de sa maison californienne que sont “hostées” les 9 parties de la Keynote, pour un total d’1H40 d’annonces pré-enregistrées.


Introduction

La Keynote s’ouvre sur quelques mots de soutien au personnel médical dans la crise sanitaire du Covid19 et sur l’important travail des chercheurs pour battre le virus : suivre et surveiller sa progression, analyser le taux d’infection en temps réel… Il n’aura ainsi fallu que sept heures à Oxford Nanopore pour séquencer le génome du virus grâce aux technologies de calculs NVIDIA.

L’ensemble des projets “COVID-19” sur lesquels qui ont bénéficés des technologies NVIDIA

S’en suit la traditionnelle vidéo d’introduction “I AM IA”, couvrant un ensemble de cas clients dans des domaines variés :

  • NASA Goddard SVS, en charge de créer des visuels sur la base de données techniques
  • Voiceit, un logiciel de reconnaissance vocale en situation en handicap
  • Axial3D, qui produit du matériel médical en 3D
  • ILM, signant les effets spéciaux du dernier Star Wars.
  • BMW Group, dans son assistance robotique en usine...

Partie 1 : La nouvelle frontière du GPU

- Le DPU

Huang revient ensuite sur les deux dynamiques fondamentales qui, selon lui, font entrer l’accelerated computing” dans une nouvelle ère :

  • D’une part l’émergence des algorithmes de “Machine Learning”, pour laquelle la question de la mobilité des données est primordiale.
  • D’autre part la taille nouvelle des projets, pour lesquels un ordinateur ou un serveur ne suffisent plus : le datacenter est désormais la nouvelle unité dans ce monde de workloads intensifs.
A gauche, le DPU vient complèter le GPU et le CPU dans une sublime pirouette marketing

- Developpeurs et SDKs

Après avoir introduit sa nouvelle acquisition, Huang propose un focus sur les développeurs, au coeur du cercle vertueux de Nvidia. Et annonce 50 nouveaux SDK, le premier étant bien entendu CUDA, prochainement en version 11 (pour permettre le support de l’architecture GPU Ampere).

La plateforme NVIDIA CUDA-X, s’appuyant sur CUDA pour proposer une collection de bibliothèques et d’outils proposera parmi ses nouveautés cuDNN 9 et TensorRT 7.1.Enfin, des librairies spécifiques aux applications métier : RTX GI, JetPack 4.4, RAPIDS 0.13 etc…

50 nouveaux SDKs ont été annoncés

Partie 2 : RTX Graphics

- Ray tracing DLSS

La partie 2 est dédiée aux performances graphiques, à commencer par le désormais bien connu Ray Tracing. Le premier arrêt est un retour sur la sortie en avril 2020 de la seconde itération de leur technologie DLSS 2.0, Deep Sampling Super Sampling, dont l’objectif est d’augmenter la résolution d’une image grâce à un modèle de Deep Learning.

Le Deep Learning, disparu de DLSS 1.0, revient dans cette seconde version

Une image nativement 540p peut désormais être re-générée en 1080p en reposant sur les TensorCores des RTX. Une démo est jouée sur Minecraft utilisant le Ray Tracing en temps réel sur DLSS RTX.

- NVIDIA OMNIVERSE

Toujours sur la création 3D, NVIDIA présente un outil de collaboration en live dans le domaine de la création: NVIDIA OMNIVERSE. Pour faciliter la collaboration et l’échange de de quantité massive de données en base, NVIDIA OMNIVERSE repose sur les technologies “Universal Scene Description” de Pixar et NVIDIA RTX ™.


Partie 3 : NVIDIA AI

- Spark 3.0 Nvidia accelerated

Le pipeline du Machine learning se décompose en trois étapes : l’ETL qui crée les dataframes, ces derniers permettent d’entrainer les modèles, avant de les exécuter dans Inference. Chacune de ces étapes ayant bien entendu ses propres challenges.

Au stade de l’ETL, la gestion de la data prend un temps sans cesse croissant, ce qui explique d’ailleurs en bonne partie le succès de Spark. Mais même ce dernier s’approche de ses limites, les usages évoluant vers des volumes de données massifs : le cache des CPU, qui se compte généralement en dizaines de megabytes, devient un véritable goulot d’étranglement face aux Tera et Peta de données.

Apache Spark n’est pas encore en “vert NVIDIA” : nous allons l’accélérer!

C’est pourquoi Spark 3.0 sera accéléré par NVIDIA via Magnum IO et Rapids, permettant de soustraite des GPU aux CPU, et donc de contourner ce goulot d’étranglement. Dès lors, toute la chaîne de Machine Learning sera potentiellement accélérée par GPU.

Voilà qui est fait, avec RAPIDS et Magnum IO

- NVIDIA Merlin for Recommendation Systems

Si vous avez aimé Spark 3.0, vous risquez d’aimer NVIDIA Merlin ! Les moteurs de recommandation sont l’un des pipelines de Machine Learning les plus importants et les plus complexes, et sont pourtant essentiels pour offrir une expérience personnalisée à vos clients. C’est pourquoi NVIDIA sort Merlin, un nouveau framework applicatif qui simplifie et codifie les systèmes de recommandation, quelle que soit votre industrie.

- NVIDIA Jarvis for Conversational AI

Encore un nouveau framework applicatif avec NVIDIA Jarvis, dont le nom n’est pas sans rappeler un personnage de Marvel. Et en effet, Jarvis reconnaît la vision et le son pour alimenter un chatbot reposant sur de l’IA accéléré par GPU. Avec Jarvis, les entreprises peuvent créer des traductions en temps réel, des sous-titres ou des transcriptions d’appels vidéo en temps réel ou alimenter un certain nombre d’autres applications telles que des haut-parleurs intelligents, des centres d’appels et des services de vente au détail.

Le PDG de NVIDIA interagi d’ailleurs avec Misty, un chatbot qui utilise l’inférence pour répondre intelligemment en quelques millisecondes. Couplée à Omniverse, ce chatbot se matérialise sous la forme d’une gentille goutte d’eau, dont la bouche et l’expression faciale est générée en temps réel en fonction de son texte. Ce qui n’a pas manqué de nous rappeller de bons souvenirs.

Misty, le chatbot animé en 3D et en temps réel par Omniverse

Partie 4 : le hardware

- NVIDIA A100, un GPU pour Data Center basé sur l’architecture NVIDIA Ampere

NVIDIA a conçu un GPU orienté Datacenters pour répondre aux nouveaux besoins des clients qui ont besoin de scaling horinzontal et vertical, que ce soit pour des workloads HPC, le training et l’inférence IA ou d’analyse de données. Basé sur la nouvelle architecture NVIDIA Ampere, l’A100 fournit quelques fonctionnalités intéressantes :

  • Les cœurs Tensor de troisième génération des GPU A100 ainsi que leurs capacités de calcul de niveau TF32 (Tensor Float 32) permettent d’accéléré par 20 certains jobs d’IA ou HPC;
  • les 40GB de mémoire HBM2, avec une bande passante mémoire d’1,6 téraoctets par seconde contribuent significativement à l’énorme boost de performance de ce GPU;
  • l’association de la technologie NVIDIA NVLink de troisième génération, de NVIDIA NVSwitch, de la norme PCI Gen4, de Mellanox InfiniBand et du kit de développement logiciel NVIDIA Magnum IO permettent d’interconnecter plus d’un millier de GPU A100, comme par exemple dans le cas du DGX SuperpOD composé de 140 serveurs DGX A100, pour un total de 1,120 NVIDIA A100 GPUs (https://blogs.nvidia.com/blog/2020/05/14/dgx-superpod-a100/);
  • Une nouvelle fonctionnalité révolutionnaire de virtualisation de GPU multi-instances (MIG). MIG permet de partitionner chaque GPU A100 en sept instances distinctes, entièrement isolées et sécurisées au niveau matériel avec leur propre mémoire à bande passante élevée, un cache spécial et des cœurs de calcul dédiés;
  • Sparsity qui offre un doublement supplémentaire du débit.
The A100 packs sparse matrices to accelerate AI inference tasks

Vous retrouverez toutes les informations détaillées sur le blog de Nvidia.

- NVIDIA DGX A100, Universal System for AI Infrastructure

Un bijou technologique comme le NVIDIA A100 se devait d’avoir son écrin : c’est choses faite avec le DGX A100, le premier système proposant 5-petaflops, avec des specs impressionnantes :

  • 8 GPU NVIDIA A100 avec 320 GO de mémoire GPU totale
  • 6 modules NVSWITCH de seconde génération
  • 9 adaptateurs Mellanox ConnectX-6 VPI HDR InfiniBand 200Gb Ethernet
  • 2 CPU AMD 0 64 coeurs et 1 TO de mémoire système
  • Disques SSD NVME GEN4 de 15 TO

Vous retrouverez toutes les informations détaillées sur le blog de Nvidia : https://www.nvidia.com/en-us/data-center/dgx-a100/

- EDGE AI : NVIDIA EGX A100, Real-Time AI Processing at the Edge

Enfin, NVIDIA propose la NVIDIA EGX A100 pour proposer à un vaste ensemble de métiers — aéroports, entrepôts, usines, hôpitaux etc — des capacités de calcul GPU “ON EDGE”.

Vous retrouverez toutes les informations détaillées sur le blog de Nvidia.


Voilà pour ces quelques lignes de retour à chaud sur la Keynote du NVIDIA GPU Technologie Conference (GTC) 2020 !

Si cet article à ouvert votre appétit en terme d’IA, Scaleway propose des monstres sacrés dans le domaine du GPU, les NVIDIA Tesla P100 16GB PCIe dédiée, au meilleur prix du marché : 0,99 centimes d’euros par heure, flat price mensuel à 500 euros HT ! Plus aucune excuse donc pour ne pas vous lancer vous aussi 😇