Prometheus est un logiciel libre de surveillance informatique et générateur d'alertes. Il enregistre des métriques en temps réel dans une base de données de séries temporelles (avec une capacité d'acquisition élevée) en se basant sur le contenu de point d'entrée exposé à l'aide du protocole HTTP. Ces métriques peuvent ensuite être interrogées à l'aide d'un langage de requête simple (PromQL) et peuvent également servir à générer des alertes. Le projet est écrit en Go et est disponible sous licence Apache 2. Le code source est disponible sur GitHub[2], et est un projet maintenu par la Cloud Native Computing Foundation à côté d'autres projets comme Kubernetes et Envoy[3].
Historique
Prometheus a été développé chez SoundCloud à partir de 2012[4], lorsque la société a estimé que les solutions de surveillance qu'elle utilisait (StatsD et Graphite) n'étaient pas adaptées à ses besoins. SoundCloud a ainsi développé Prometheus avec pour objectif de disposer d'une base de données multidimensionnelle, d'un outil simple à faire fonctionner, d'un mécanisme de collecte simple et évolutif et d'un langage de requête puissant, le tout dans un seul outil[5]. Le code source du projet a été dès le départ livré sous une licence libre. Cette caractéristique a aidé à une adoption rapide, notamment par Boxever et Docker[6]. Prometheus s'est inspiré de l'outil de surveillance Borgmon utilisé par Google[7],[8].
Depuis 2013, Prometheus est utilisé pour la surveillance de la production chez SoundCloud[5].
La version 1 de Prometheus est sortie en [10]. La version 2 est sortie en [11].
En , la Cloud Native Computing Foundation annonçait que Prometheus était utilisable en production[3].
Architecture
Format de stockage des données
Les données Prometheus sont stockées sous la forme de métriques. Chaque métrique dispose d'un nom ainsi que d'un ensemble d'étiquettes prenant la forme de paire clé = valeur. Chaque métrique peut être sélectionnée en fonction de ces étiquettes. Ces étiquettes incluent des informations sur l'origine de la métrique (agent, adresse du serveur) ainsi que d'un ensemble d'informations spécifiques à l'application (code HTTP, méthode de requête), le point de terminaison, etc. La possibilité de spécifier une liste arbitraire d'étiquettes et d'interroger en fonction de celles-ci en temps réel explique pourquoi le modèle de données de Prometheus est appelé multidimensionnel[12],[5],[6].
Collecte de données
Prometheus collecte des données sous forme de séries temporelles. Les séries temporelles sont récupérées de manière active : le serveur Prometheus interroge une liste de sources de données (les exporteurs) à une fréquence d'interrogation spécifique. Ces points de collecte servent de sources de données à Prometheus. Le serveur dispose également de mécanismes de découverte automatique des ressources à surveiller[13].
Alertes et surveillance
La configuration des alertes se configure depuis Prometheus à l'aide de conditions se basant sur une expression au format PromQL ainsi qu'une durée de temps permettant de caractériser le temps nécessaire pour déclencher une alerte. Lorsque les alertes se déclenchent, elles sont transmises au service d'alerte (Alertmanager). Ce dernier se charge de réaliser un certain nombre d'opérations d'agrégation, désactivation et temporisation de ces alertes avant de les transmettre par différents moyens (messagerie électronique, notification Slack ou SMS)[14].
Tableaux de bord
Prometheus n'est pas conçu pour faire de la restitution d'informations sous la forme de tableau de bord bien qu'il dispose d'une solution pour le faire. Une bonne pratique est de faire appel à un outil comme Grafana même si cette solution a comme inconvénient de rendre l'installation du système de surveillance plus complexe[15].
Utilisation
Prometheus a été utilisé pour la première fois en interne chez SoundCloud, où il a été développé, pour surveiller leurs systèmes[5]. La Cloud Native Computing Foundation a un certain nombre d'études de cas d'autres sociétés utilisant Prometheus. On retrouve par exemple la société Digital Ocean[16], le festival numérique DreamHack[17] et le service de migration de messagerie et de contact ShuttleCloud[18]. Par ailleurs, Pandora Radio a mentionné l'utilisation de Prometheus pour surveiller son pipeline de données[19].
↑Brian Brazil, Prometheus: Up & Running: Infrastructure and Application Performance Monitoring, O'Reilly Media, (ISBN978-1-4920-3409-4, lire en ligne), p. 3
↑Niall Murphy, Betsy Beyer, Chris Jones et Jennifer Petoff, Site Reliability Engineering:How Google Runs Production Systems, O'Reilly Media, (ISBN978-1491929124, lire en ligne) :
« Even though Borgmon remains internal to Google, the idea of treating time-series data as a data source for generating alerts is now accessible to everyone through those open source tools like Prometheus ... »
↑Volz, « PromCon 2017: Conference Recap », sur YouTube, : « I joined SoundCloud back in 2012 coming from Google...we didn't yet have any monitoring tools that that works with this kind of dynamic environment. We were kind of missing the way Google did its monitoring for its own internal cluster scheduler and we were very inspired by that and finally decided to build our own open-source solution. »
McKendrick Russ, Monitoring Docker : monitor your Docker containers and their apps using various native and third-party tools with the help of this exclusive guide!, Birmingham, UK, (ISBN9781785885501, OCLC933610431)
HECK JOSEPH., KUBERNETES FOR DEVELOPERS use kubernetes to develop, test, and deploy your applications with the help of containers;use kubernetes to develop, [S.l.], PACKT PUBLISHING, (ISBN978-1788830607, OCLC1031909876)
Burns, Brendan 1976-, Designing distributed systems : patterns and paradigms for scalable, reliable services, Sebastopol, CA, First, (ISBN9781491983614, OCLC1023861580)
Helmich Martin., Cloud Native programming with Golang Develop microservice-based high performance web apps for the cloud with Go, Birmingham, Packt Publishing, (ISBN9781787127968, OCLC1020029257)
Shrivastwa Alok, Hybrid cloud for architects : build robust hybrid cloud solutions using AWS and OpenStack, Birmingham, UK, (ISBN9781788627986, OCLC1028641698)
Chanwit Kaewkasi, Native Docker Clustering with Swarm, (ISBN978-1786469755)