Hugging Face

Hugging Face
Cadre
Type
Domaine d'activité
Siège
Pays
Organisation
Effectif
170 employés ()Voir et modifier les données sur Wikidata
Filiale
Hugging Face SAS (d)Voir et modifier les données sur Wikidata
Chiffre d'affaires
15 M$ ()Voir et modifier les données sur Wikidata
Site web
Identifiants
OpenCorporates

Hugging Face est une start-up (licorne) franco-américaine du domaine de l'Intelligence artificielle créée en 2016 et qui développe des outils pour utiliser l'apprentissage automatique. Elle propose notamment une bibliothèque, open source, de transformeurs conçue pour les applications de traitement automatique des langues, et une plate-forme permettant le partage des modèles et des ensembles de données nécessaires à l'apprentissage automatique, permettant notamment l'entraînement de nouveaux modèles, y compris de grands modèles. Hugging Face, en 2023, emploie 80 salariés en France[1]. En 2024, la plateforme collaborative Hub de l'entreprise stocke 1,3 million de modèles d'intelligence artificielle, 450 000 jeux de données, 680 000 espaces, avec environ 1 milliard de requêtes par jour.

Histoire

La société a été fondée en 2016 par les entrepreneurs français Clément Delangue, Julien Chaumond et Thomas Wolf[2], initialement pour développer une application de chatbot destinée aux adolescents[3]. Après avoir ouvert le modèle de cette application, l'entreprise développe une plate-forme d'apprentissage automatique. En 2017, Hugging Face déménage aux États-Unis pour espérer lever des fonds[2].

Le , la société annonce mettre à disposition une version entreprise de son Hugging Face Hub public qui prend en charge le déploiement SaaS ou sur site[4].

En , la société présente un partenariat avec Amazon Web Services (AWS) qui rend ses produits disponibles aux clients AWS. La société indique également que la prochaine génération de BLOOM sera exécutée sur Trainium, une puce d'apprentissage automatique créée par Amazon[5],[6].

En 2024, l'entreprise a acheté XetHub (une start-up américaine, crée en 2021 à Seattle par des anciens de l'équipe de machine learning d'Apple, dédiée à la gestion de fichiers de projets d'intelligence artificielle, dont fichiers fragmentés et de déduplication (permettant d'importants gains de place et de vitesse), et qui a dopé le logiciel Git pour gérer des référentiels géants de données), pour améliorer ses capacités de stockage et de gestion des données, afin de répondre aux besoins croissants d'intelligence artificielle de plus en plus complexes[7]. Hugging Face pourrait ainsi remplacer Git LFS par une version optimisée de son propre système de stockage et de gestion de versions, intégrant les avancées technologiques de XetHub : la bande passante serait ainsi réduite, de même que le temps de téléchargement et de mise à jour de très gros fichiers (ex. : « dans un scénario où un fichier Parquet de 10 Go nécessite une mise à jour d'une seule ligne, les utilisateurs ne devront plus télécharger l'intégralité du fichier, mais seulement les fragments modifiés »[7].

Financement

En , Hugging Face lève 40 millions de dollars lors d'un financement de série B.[8] Le 5 mai 2022, la société annonce un financement de série C [9] qui la valorise à deux milliards de dollars[10]. En août 2023, elle lève 235 millions de dollars auprès de plusieurs grandes multinationales américaines, incluant Google, Amazon et Nvidia, ce qui amène sa valorisation à 4,5 milliards de dollars[11].

La start-up a réalisé un chiffre d'affaires de 15 millions de dollars en 2022, et prévoit de dépasser 100 millions en 2024 en profitant de l'essor du secteur[10].

Produits

Hugging Face Hub

La plateforme Hugging Face Hub permet aux utilisateurs d'y héberger[12] :

  • des dépôts utilisant Git, avec des fonctionnalités similaires à GitHub, y compris des discussions et des propositions de modifications (pull-requests) des projets.
  • des modèles, également enregistrés dans Git. 500 000 modèles mis en ligne par les utilisateurs y sont hébergés[13].
  • des ensembles de données, principalement sous forme de texte, d'images et d'audio ;
  • des applications web (« spaces » et « widgets »), permettant d'héberger des preuves de concept.

La société se veut ouverte et agnostique, à contre-courant des modèles économiques des GAFAM ou d'OpenAI. Le grand public peut accéder à ses services gratuitement, mais Hugging Face fait payer les entreprises lorsqu'elles ont besoin d'importante puissance de calcul[2],[1]. La société s'est dotée d'une équipe consacrée aux questions d'éthique et de droit qui résultent du déploiement des systèmes d'intelligence artificielle[14].

En février 2024, une étude de JFrog[15] affirme que la plateforme héberge au moins une centaine de modèles de machine learning malveillants. En effet ceux-ci abriteraient des portes dérobées qui permettraient ensuite de prendre le contrôle à distance des appareils concernés[16].

Bibliothèque de transformateurs

La bibliothèque Transformers est un package Python qui contient des implémentations open source de modèles de transformateurs pour les tâches de texte, d'image et audio. Il est compatible avec les bibliothèques d'apprentissage profond PyTorch, TensorFlow et JAX et inclut des implémentations de modèles notables tels que BERT et GPT-2[source secondaire souhaitée].

BLOOM

La société lance en 2021 le BigScience Research Workshop en collaboration avec plusieurs autres groupes de recherche pour publier un grand modèle de langage ouvert[17]. 1 000 chercheurs européens ont participé[10], notamment du CNRS, du GENCI et du ministère de l'Enseignement supérieur et de la Recherche[18].

La collaboration donne naissance l'année suivante à BLOOM (BigScience Large Open-science Open-access Multilingual Language Model), un grand modèle de langage multilingue (comprenant 46 langues et 13 langages de programmation) disposant de 176 milliards de paramètres[19]. Les chercheurs ont privilégié l’entraînement sur un corpus de 1,4 téraoctet de texte composé de données fiables dans chaque langue. L'apprentissage a été effectué avec 8 pétaflops du supercalculateur Jean Zay de l'Institut du développement et des ressources en informatique scientifique. Durant 11 semaines, des centaines de processeurs graphiques ont fonctionné en parallèle, totalisant 5 millions d’heures de calcul. Le modèle a la particularité d'être mis à disposition publiquement (open-source), mais la licence interdit certaines utilisations comme l'écriture de fake news ou de conseils de santé. L'entreprise travaille à réduire les ressources nécessaires par l'utilisation du modèle pour le rendre plus accessible[20].

Critiques, problèmes

Sécurité des jetons d'API

Des chercheurs en sécurité ont découvert plus de 1 500 jetons d'API exposés sur la plateforme Hugging Face, appartenant à des géants de la technologie comme Meta, Microsoft, Google et VMware, ce qui a mis en danger de nombreuses organisations (cf. risques de vol de données, mais aussi d'empoisonnement de modèles d'intelligence artificielle)[21].

Modèles d'intelligence artificielle malveillants

La plateforme héberge ou a hébergé de nombreux modèles d'intelligence artificielle malveillants, malgré les mesures de sécurité mises en place pour empêcher leur diffusion[22].

Liens externes

Références

  1. a et b « Intelligence artificielle : Hugging Face va doubler ses effectifs en France », sur Le Point, (consulté le ).
  2. a b et c « Comment trois Français exilés aux Etats-Unis sont devenus des incontournables de l'IA », sur BFMTV (consulté le ).
  3. (en-US) « Hugging Face wants to become your artificial BFF », TechCrunch, (consulté le )
  4. Par Victor Cousin et Maxime Poul Le 25 août 2023 à 11h08, « Intelligence artificielle : c’est quoi Hugging Face, la pépite française valorisée à 4,5 milliards d’euros ? », sur leparisien.fr, (consulté le )
  5. Dina Bass, « Amazon's Cloud Unit Partners With Startup Hugging Face as AI Deals Heat Up », Bloomberg News,‎ (lire en ligne)
  6. Stephen Nellis, « Amazon Web Services pairs with Hugging Face to target AI developers », Reuters,‎ (lire en ligne)
  7. a et b « Hugging Face renforce son infrastructure IA avec l'acquisition de XetHub », ActuIA,‎ (lire en ligne, consulté le ).
  8. « Hugging Face raises $40 million for its natural language processing library »,
  9. (en) Cai, « The $2 Billion Emoji: Hugging Face Wants To Be Launchpad For A Machine Learning Revolution », Forbes (consulté le )
  10. a b et c Guillaume Grallet, « Intelligence artificielle : ces Français qui défient ChatGPT », sur Le Point, (consulté le )
  11. « La start-up d'IA Hugging Face lève 235 millions de dollars auprès de Google, Amazon, Nvidia... », Usine-digitale.fr,‎ (lire en ligne, consulté le )
  12. « Hugging Face Hub documentation », huggingface.co (consulté le )
  13. Victor Cousin et Maxime Poul à 11h08, « Intelligence artificielle : c’est quoi Hugging Face, la pépite française valorisée à 4,5 milliards d’euros ? », sur leparisien.fr, (consulté le )
  14. « Hugging Face: dans l’atelier français de l’intelligence artificielle », sur RFI, (consulté le )
  15. JFrog est une entreprise et une plateforme universelle de chaîne d’approvisionnement logicielle pour Devops, la sécurité et MLOps. On peut y assembler, distribuer et automatiser les mises à jour logicielles à la périphérie. JFrog aide à améliorer et sécuriser et à mettre en conformité les modèles d’IA, dont via le DevSecOps (développement, sécurité et opérations ; méthode visant à sécuriser les logiciels, dès le début de leur conception et tout au long de leur développement
  16. Chloé Claessens, « Au moins une centaine de modèles d'IA malveillants seraient hébergés par la plateforme Hugging Face » Accès libre, Clubic, (consulté le )
  17. « Inside BigScience, the quest to build a powerful open language model »,
  18. « Bloom : l'intelligence artificielle qui gère 46 langues », sur Génération NT, (consulté le )
  19. « BLOOM », bigscience.huggingface.co (consulté le )
  20. « Un système d'analyse multilingue ultra-innovant entraîné dans l'Essonne », sur Les Echos, (consulté le )
  21. « Les jetons de l'API Hugging Face exposés offrent un accès complet au lama 2 de Meta, selon Lasso Security », sur Developpez.com (consulté le ).
  22. Chloé Claessens, « Au moins une centaine de modèles d'IA malveillants seraient hébergés par la plateforme Hugging Face », sur clubic.com, (consulté le ).