Hugging Face est une start-up (licorne) franco-américaine du domaine de l'Intelligence artificielle créée en 2016 et qui développe des outils pour utiliser l'apprentissage automatique. Elle propose notamment une bibliothèque, open source, de transformeurs conçue pour les applications de traitement automatique des langues, et une plate-forme permettant le partage des modèles et des ensembles de données nécessaires à l'apprentissage automatique, permettant notamment l'entraînement de nouveaux modèles, y compris de grands modèles. Hugging Face, en 2023, emploie 80 salariés en France[1]. En 2024, la plateforme collaborative Hub de l'entreprise stocke 1,3 million de modèles d'intelligence artificielle, 450 000 jeux de données, 680 000 espaces, avec environ 1 milliard de requêtes par jour.
Histoire
La société a été fondée en 2016 par les entrepreneurs français Clément Delangue, Julien Chaumond et Thomas Wolf[2], initialement pour développer une application de chatbot destinée aux adolescents[3]. Après avoir ouvert le modèle de cette application, l'entreprise développe une plate-forme d'apprentissage automatique. En 2017, Hugging Face déménage aux États-Unis pour espérer lever des fonds[2].
Le , la société annonce mettre à disposition une version entreprise de son Hugging Face Hub public qui prend en charge le déploiement SaaS ou sur site[4].
En , la société présente un partenariat avec Amazon Web Services (AWS) qui rend ses produits disponibles aux clients AWS. La société indique également que la prochaine génération de BLOOM sera exécutée sur Trainium, une puce d'apprentissage automatique créée par Amazon[5],[6].
En 2024, l'entreprise a acheté XetHub (une start-up américaine, crée en 2021 à Seattle par des anciens de l'équipe de machine learning d'Apple, dédiée à la gestion de fichiers de projets d'intelligence artificielle, dont fichiers fragmentés et de déduplication (permettant d'importants gains de place et de vitesse), et qui a dopé le logiciel Git pour gérer des référentiels géants de données), pour améliorer ses capacités de stockage et de gestion des données, afin de répondre aux besoins croissants d'intelligence artificielle de plus en plus complexes[7]. Hugging Face pourrait ainsi remplacer Git LFS par une version optimisée de son propre système de stockage et de gestion de versions, intégrant les avancées technologiques de XetHub : la bande passante serait ainsi réduite, de même que le temps de téléchargement et de mise à jour de très gros fichiers (ex. : « dans un scénario où un fichier Parquet de 10 Go nécessite une mise à jour d'une seule ligne, les utilisateurs ne devront plus télécharger l'intégralité du fichier, mais seulement les fragments modifiés »[7].
Financement
En , Hugging Face lève 40 millions de dollars lors d'un financement de série B.[8] Le 5 mai 2022, la société annonce un financement de série C[9] qui la valorise à deux milliards de dollars[10]. En août 2023, elle lève 235 millions de dollars auprès de plusieurs grandes multinationales américaines, incluant Google, Amazon et Nvidia, ce qui amène sa valorisation à 4,5 milliards de dollars[11].
La start-up a réalisé un chiffre d'affaires de 15 millions de dollars en 2022, et prévoit de dépasser 100 millions en 2024 en profitant de l'essor du secteur[10].
Produits
Hugging Face Hub
La plateforme Hugging Face Hub permet aux utilisateurs d'y héberger[12] :
des dépôts utilisant Git, avec des fonctionnalités similaires à GitHub, y compris des discussions et des propositions de modifications (pull-requests) des projets.
des modèles, également enregistrés dans Git. 500 000 modèles mis en ligne par les utilisateurs y sont hébergés[13].
des ensembles de données, principalement sous forme de texte, d'images et d'audio ;
des applications web (« spaces » et « widgets »), permettant d'héberger des preuves de concept.
La société se veut ouverte et agnostique, à contre-courant des modèles économiques des GAFAM ou d'OpenAI. Le grand public peut accéder à ses services gratuitement, mais Hugging Face fait payer les entreprises lorsqu'elles ont besoin d'importante puissance de calcul[2],[1]. La société s'est dotée d'une équipe consacrée aux questions d'éthique et de droit qui résultent du déploiement des systèmes d'intelligence artificielle[14].
En février 2024, une étude de JFrog[15] affirme que la plateforme héberge au moins une centaine de modèles de machine learning malveillants. En effet ceux-ci abriteraient des portes dérobées qui permettraient ensuite de prendre le contrôle à distance des appareils concernés[16].
La collaboration donne naissance l'année suivante à BLOOM (BigScience Large Open-science Open-access Multilingual Language Model), un grand modèle de langage multilingue (comprenant 46 langues et 13 langages de programmation) disposant de 176 milliards de paramètres[19]. Les chercheurs ont privilégié l’entraînement sur un corpus de 1,4 téraoctet de texte composé de données fiables dans chaque langue. L'apprentissage a été effectué avec 8 pétaflops du supercalculateurJean Zay de l'Institut du développement et des ressources en informatique scientifique. Durant 11 semaines, des centaines de processeurs graphiques ont fonctionné en parallèle, totalisant 5 millions d’heures de calcul. Le modèle a la particularité d'être mis à disposition publiquement (open-source), mais la licence interdit certaines utilisations comme l'écriture de fake news ou de conseils de santé. L'entreprise travaille à réduire les ressources nécessaires par l'utilisation du modèle pour le rendre plus accessible[20].
Critiques, problèmes
Sécurité des jetons d'API
Des chercheurs en sécurité ont découvert plus de 1 500 jetons d'API exposés sur la plateforme Hugging Face, appartenant à des géants de la technologie comme Meta, Microsoft, Google et VMware, ce qui a mis en danger de nombreuses organisations (cf. risques de vol de données, mais aussi d'empoisonnement de modèles d'intelligence artificielle)[21].
Modèles d'intelligence artificielle malveillants
La plateforme héberge ou a hébergé de nombreux modèles d'intelligence artificielle malveillants, malgré les mesures de sécurité mises en place pour empêcher leur diffusion[22].
↑JFrog est une entreprise et une plateforme universelle de chaîne d’approvisionnement logicielle pour Devops, la sécurité et MLOps. On peut y assembler, distribuer et automatiser les mises à jour logicielles à la périphérie. JFrog aide à améliorer et sécuriser et à mettre en conformité les modèles d’IA, dont via le DevSecOps (développement, sécurité et opérations ; méthode visant à sécuriser les logiciels, dès le début de leur conception et tout au long de leur développement