Sonde de capture réseau : combien de To acheter ?

Les sondes de captures réseau fonctionnent sur le principe d’un buffer tournant, une fois l’espace de stockage plein, les nouveaux paquets remplacent les plus anciens.

En nous déplaçant chez nos clients, nous croisons régulièrement des sondes de capture dont la durée de rétention est trop courte. Dans les faits, le temps que les équipes N2 commencent à travailler sur un problème, les paquets utiles pour le diagnostic ont déjà disparu des sondes, effacés par des paquets plus récents.

Quelle méthode de calcul appliquer pour éviter de se trouver dans cette situation ?

Celle que nous utilisons est la suivante :

Débit moyen sur une journée de vos points de capture  X  Délai de réaction sur incident  X  Facteur de réduction des données  X  Marge de progression du débit sur la durée de vie des sondes  <  Capacité utile à acheter

Détaillons les termes de l’équation.

Débit moyen sur une journée de vos points de capture

Cela présuppose de déjà connaitre vos futurs points de capture ainsi que leurs débits sur une journée type. D’où l’importance de ne pas s’arrêter à un POC fonctionnel avant l’achat mais de se pencher sur l’usage anticipé et les points de capture, donc le débit et le stockage associé que cela implique

Nous voyons parfois une solution sélectionnée sur des critères fonctionnels ou de débit alors que le modèle exact de sonde l’est plus sur des critères budgétaires ou « a l’estime », que sur une étude approfondie de l’usage futur.

Si vous n’avez pas d’outil de mesure de débit généralisé :

  • Installez en un, avant d’acheter une sonde. Il existe d’excellents outils open source gratuit

ou

  • Remettez a zéro les compteurs des interfaces de vos équipements réseau que vous envisagez de capturer, tous les jours à la même heure pendant une semaine, afin d’avoir une première approximation et gardez les jours les plus volumineux comme référence.

Délai de réaction

Soyons honnête, il existe toujours un délai entre la survenue d’un problème et sa détection/son signalement, puis un second délai jusqu’au début de son traitement effectif.

Même dans le cas où un NOC / SOC niveau 1 est disponible H24 – 7J/7, celui-ci n’a pas forcement la compétence pour utiliser la solution et protéger les éléments de diagnostic de l’effacement périodique.

Nos préconisations génériques sont :

  • Le minimum absolu : 3,5 jours (84 heures)

Cela permet aux paquets d’un incident se déroulant tôt un vendredi matin, d’être encore présent dans la sonde un lundi en fin d’après midi. Estimer un délai de réaction en dessous de 84 heures, est irréaliste en entreprise, hors équipe dédiée H24 7/7.

  • Un peu plus réaliste : 4,5 jours (108 heures)

Cela permet aux paquets d’un incident se déroulant un vendredi matin tôt, d’être encore étudiable un mardi en fin d’après midi ou un incident se déroulant la veuille d’un WE de 3 jours, d’être encore étudiable en fin d’après midi, le jour de la reprise.

  • Un bon objectif : entre 6 et 7 jours

Mais dans des environnements à fort trafic, cela peut être couteux.

A l’inverse, rien ne sert d’être trop large, si votre rétention dépasse 9 jours, il faut se poser des questions. Votre politique de capture de flux est elle la bonne ? avez vous trop de budget ? Embauchez-vous ? …

Mais si vous avez réellement besoin de 9 jours de rétention ou plus, ce n’est plus un problème de rétention mais un problème organisationnel.

Facteur de réduction

Il existe plusieurs solutions pour réduire le volume de données à stocker

Compression

La compression est rarement disponible. A notre connaissance, seule la solution open source Nbox l’implémente. Elle a l’inconvénient d’être relativement gourmande en CPU et les résultats sont très dépendants du trafic capturé mais peuvent être spectaculaire sur du trafic répétitif et/ou de petits paquets.

Filtrage

C’est la méthode classique par excellence. Toutes les sondes de capture supportent le filtrage en entrée.

C’est une méthode puissante surtout en présence d’un Network Packet Broker qui soulage la sonde de cette tache, diminue la charge CPU et surtout la bande passante réseau et disque sur celle-ci.

L’inconvénient est que l’on se prive à l’avance, de la possibilité d’étudier tout une partie de son trafic juste parce qu’il est trop volumineux.

Slicing / slicing par protocole

Il consiste à tronquer les paquets écrit sur disque. Exemple : n’écrire que les 64 premiers octets de chaque paquet. Cette solution permet de ne pas filtrer du trafic a priori.

Cela peut être redoutablement efficace dans la réduction de l’espace de stockage et de la bande passante disque mais la mise en œuvre est complexe car elle dépend du mix protocolaire sur les points de capture, de la souplesse de la solution de slicing et de la volonté de préserver une capacité d’analyse protocolaire fine en allant étudier loin dans chaque paquet.

S’il n’y a pas de network packet broker dans l’infrastructure de capture, certains constructeurs de sondes supportent un slicing « global ». Cela permet déjà une première approche ayant l’avantage de la simplicité avec un seul niveau de slicing à choisir.

Si on est en présence d’un packet broker supportant la fonction, il est parfois possible d’optimiser le slicing en tronquant « court » pour certains protocoles « illisibles » (exemple : cryptage) et en tronquant « long », voir pas du tout pour des protocoles « texte » avec des besoins débogage élevé (exemple : HTTP).

La découverte des valeurs optimales est laissée comme exercice au lecteur.

Marge de progression sur la durée de vie des sondes

Lors de l’achat, il faut prévoir une marge de progression afin que la rétention en fin de vie des sondes soit toujours suffisante pour être exploitable.

Cela impose de faire du capacity planning, mais si vous n’avez pas d informations précises, pariez sur 1/3 de marge sur une durée de vie des sondes de 3 ans.

Dernier point

Attention à ce que vous achetez. La capacité vendue est toujours une capacité « brute » qui est la somme de tous les disques contenus dans la sonde et non pas la capacité réellement utilisable.

Typiquement sur une sonde vendue comme 8 To « brut » avec 8 disques de 1 To, une fois crée un RAID 5 et une fois formaté, la capacité « utile » sera réellement d’environ 6,7 To soit une perte de 16%.

Demandez à votre vendeur la valeur réellement utilisable.

Bon achat.