Commit d813e947 authored by Fᴀʙɪᴇɴ Wᴇʀɴʟɪ's avatar Fᴀʙɪᴇɴ Wᴇʀɴʟɪ
Browse files

add ata event to png

parent cde20b2e
......@@ -18,17 +18,14 @@ on arrive à près d'**un milliard par jour**.
La nouvelle infrastructure de gestion d'événements qui est à l'étude depuis près d'un an permet
de traiter de manière semi-automatique ce flux d'informations à destination des personnels techniques du CCIN2P3.
Elle répond efficacement et avec une faible latence aux pannes logicielles et matérielles qui se présentent.
Elle permet de répondre efficacement et avec une faible latence aux pannes logicielles et matérielles qui se présentent.
En outre, un certain nombre de journaux doivent être conservés légalement pendant un an.
## Exemple: Un disque dur tombe en panne
Pour mieux comprendre la fonction du système, suivons le chemin d'un événement
à travers la nouvelle infrastructure. Un disque dur système d'un serveur tombe en panne: le
système d'exploitation *Linux* qui gère cet équipement est alerté
par l'électronique de la pièce par l'intermédiaire du pilote noyau
correspondant. Un événement est reçu par le logiciel de collecte des
événements *rsyslogd* du serveur. Voici son contenu sous forme brute:
à travers la nouvelle infrastructure. Un disque dur système d'un serveur tombe en panne: l'électronique embarquée dans le composant notifie le pilote du noyau *Linux* qui gère le matériel correspondant. L'interruption génère un message qui est reçu par le logiciel de collecte des
événements (*rsyslogd*) du serveur. Voici son contenu sous forme brute:
```syslog
2014-05-30T14:34:53 node01 ata2.00: exception Emask 0x0 SAct 0xffff SErr 0x0 action 0x0
......@@ -47,11 +44,11 @@ commun afin de figurer dans un catalogue intelligible. C'est le composant
![riemann dashboard](event.png)
Ces quatre valeurs fondamentales
Ces cinq couples clé/valeur fondamentales
ont pour fonction notamment de permettre à l'opérateur humain de discerner
clairement les symptômes de pannes éventuelles, et de classifier les
flux d'événements. Voici la forme normalisée de
notre événement:
notre événement disque:
```json
{
......@@ -72,21 +69,21 @@ notre événement:
## Et Ensuite?
L'étape suivante de sa vie est le transfert
simultané vers d'autres systèmes de traitement: analyse
synchrone, stockage et indexation, alerte, etc.
L'étape suivante de sa vie est le transfert conditionnel
simultané vers d'autres systèmes de traitement adaptés: analyse
synchrone, stockage et indexation, alerte, etc. Selon des règles prédéfinies, l'événement est acheminé vers un ou plusieurs de ces systèmes d'infrastructure.
Le système d'analyse synchrone, implémenté
grâce au logiciel *Riemann* [2], permettra à un opérateur humain de
visualiser en **temps-réel** le flux d'événements, par exemple en affichant
dans un navigateur web les événements dont l'état est jugé important.
La latence de ce genre de visualisation est très faible (de l'ordre de quelques millisecondes) et permet un temps de réaction très rapide. Il est notamment utilisé dans la *control room* du CCIN2P3.
grâce au logiciel *Riemann* [2], reçoit pour sa part la totalité des événements. Il permettra à un opérateur humain de
visualiser en **temps-réel** le flux d'événements, en affichant
dans un navigateur web les événements selon des critères de recherche pertinents.
La latence de ce genre de visualisation est très faible (de l'ordre de quelques millisecondes) et permet un temps de réaction très rapide. Il est notamment utilisé dans la *control room* du CCIN2P3. L'événement de notre exemple y apparaîtrait typiquement en jaune (*warning*):
![riemann dashboard](riemann-dash.png)
L'autre système vers lequel
les messages sont transférés permet de les enregistrer de manière
semi-permanente gràce au logiciel *Elasticsearch* [3]. Ce moteur de recherche distribué permet d'indexer les données de manière très ciblée, et permet de trouver des incidents parmi des millions en une fraction de secondes. Il est livré avec un interface graphique très puissant (*Kibana*) qui permet à l'opérateur d'explorer les journaux de manière intuitive, et notamment de faire une analyse post-incident extrêmement efficace.
La totalité des messages est également acheminé vers le logiciel *Elasticsearch* [3] qui permet
de les enregistrer de manière
semi-permanente. Ce moteur de recherche distribué permet d'indexer les données de manière très ciblée, et permet de trouver des incidents parmi des millions en une fraction de secondes. Il est livré avec une interface graphique très puissante (*Kibana*) qui permet à l'opérateur d'explorer les journaux de manière intuitive, et notamment de faire une analyse post-incident extrêmement efficace en remontant dans le temps.
![riemann dashboard](kibana.png)
......
201410_LI/riemann-dash.png

70.6 KB | W: | H:

201410_LI/riemann-dash.png

81 KB | W: | H:

201410_LI/riemann-dash.png
201410_LI/riemann-dash.png
201410_LI/riemann-dash.png
201410_LI/riemann-dash.png
  • 2-up
  • Swipe
  • Onion skin
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment