Commit fd8e0906 authored by Fᴀʙɪᴇɴ Wᴇʀɴʟɪ's avatar Fᴀʙɪᴇɴ Wᴇʀɴʟɪ
Browse files

add collectd

parent d813e947
201410_LI/kibana.png

105 KB | W: | H:

201410_LI/kibana.png

100 KB | W: | H:

201410_LI/kibana.png
201410_LI/kibana.png
201410_LI/kibana.png
201410_LI/kibana.png
  • 2-up
  • Swipe
  • Onion skin
![riemann dashboard](all-logos.png)
![logos](all-logos.png)
# Le CCIN2P3 traite 1 milliards d'événements techniques par jour
......@@ -42,7 +42,7 @@ commun afin de figurer dans un catalogue intelligible. C'est le composant
* l'**hôte** dont il émane
* sa **date de péremption**.
![riemann dashboard](event.png)
![event](event.png)
Ces cinq couples clé/valeur fondamentales
ont pour fonction notamment de permettre à l'opérateur humain de discerner
......@@ -83,12 +83,18 @@ La latence de ce genre de visualisation est très faible (de l'ordre de quelques
La totalité des messages est également acheminé vers le logiciel *Elasticsearch* [3] qui permet
de les enregistrer de manière
semi-permanente. Ce moteur de recherche distribué permet d'indexer les données de manière très ciblée, et permet de trouver des incidents parmi des millions en une fraction de secondes. Il est livré avec une interface graphique très puissante (*Kibana*) qui permet à l'opérateur d'explorer les journaux de manière intuitive, et notamment de faire une analyse post-incident extrêmement efficace en remontant dans le temps.
semi-permanente. Ce moteur de recherche distribué permet d'indexer les données de manière très ciblée, et permet de trouver des incidents parmi des millions en une fraction de secondes. Il est livré avec une interface graphique très puissante (*Kibana*) qui permet à l'opérateur d'explorer les journaux de manière intuitive, et notamment de faire une analyse post-incident extrêmement efficace en remontant dans le temps. Dans la copie d'écran suivante, l'ensemble des connexions par *ssh* est représenté sous forme graphique:
![riemann dashboard](kibana.png)
![kibana](kibana.png)
D'autres systèmes sont également consommateurs d'un sous-ensemble des événements traités par *syslog-ng*, il s'agit par exemple de la messagerie, et de *Nagios* [4] qui est le système central de gestion des alarmes au CCIN2P3.
## Et les métriques?
400'000 métriques sont collectées par intervalles réguliers au CCIN2P3 en utilisant *collectd* [5]. Des seuils prédéfinis sont appliqués et peuvent déclencher des alertes via le même mécanisme que décrit précédemment, en utilisant *Riemann*. La différence avec les *logs* réside dans le fait que c'est le logiciel *rrdtool* qui se charge du stockage historique, par opposition à *Elasticsearch* pour les *logs*. Il est envisagé d'utiliser un stockage commun dans l'avenir. La copie d'écran suivante illustre le suivi temps-réel des données de performance d'un serveur virtuel via l'interface web *riemann-dash* [2]:
![collectd in riemann](collmann.png)
## Références
[1] http://syslog-ng.org
......@@ -98,3 +104,5 @@ D'autres systèmes sont également consommateurs d'un sous-ensemble des événem
[3] http://elasticsearch.org
[4] http://www.nagios.org
[5] http://collectd.org
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment