Détecter les anomalies et les dérives pour minimiser les pertes et les coûts à l’aide de l’intelligence artificielle

La détection d’anomalies regroupe un large éventail de techniques et d’objectifs, ayant pour caractéristique commune la recherche d’évènements particuliers qui semblent différents ou aberrants en comparaison du reste des données à disposition.
Les dérives, quant à elles, peuvent être décrites comme la période de progression vers ces anomalies, même si cette phase intermédiaire n’existe pas nécessairement.

L’une et l’autre répondent à de nombreuses problématiques rencontrées dans l’industrie et le domaine de l’environnement, et font l’objet d’autant de cas d’usages, dont nous donnons de nombreux exemples plus bas. Cependant, nous ne traiterons pas ici le domaine de la fraude et de l’analyse d’images, qui font l’objet d’intenses développements.

 La détection d’anomalies et de dérive est utile à d’autres techniques et services de modélisation et d’analyse de données, que vous pouvez découvrir sur Akwari :
Les jumeaux numériques
La maintenance prédictive
A l’inverse, elle repose elle-même sur d’autres principes, c’est notamment le cas des séries temporelles dont nous vous présentons les bases dans ce lien.

Quelles méthodes choisir pour détecter les anomalies et les dérives ?

La détection d’anomalies n’a pas attendu l’essor de l’intelligence artificielle pour être identifiée comme une discipline suscitant un intérêt important. mais c’est bien le même le machine learning qui a permis de multiplier les champs d’investigations et les méthodes de traitement, ainsi que la performance de ces dernières.

Plusieurs approches existent et gagnent à être mises en compétition, selon la problématique traitée :

Classification. Dans le cas d’anomalies bien identifiées, celles-ci peuvent être labellisées dans les données historiques, permettant ainsi à un modèle de classification de reconnaître la configuration rencontrée par le passé à laquelle il sera confronté en temps réel.

Clustering. Au contraire, si ces anomalies sont mal définies et de plusieurs natures, on peut faire appel à un modèle de clustering (partitionnement en français) qui permettra de regrouper sans a priori les données et les situations les plus ressemblantes entre elles au sein de plusieurs ensembles consistants.

Outliers. Si on cherche à identifier certaines valeurs considérées comme complètement anormales ou très distantes du reste de l’ensemble de données, on peut procéder à des méthodes de type « outliers » (données aberrantes en français), qui vont se focalise sur les valeurs extrêmes.

Dérives. Cette approche assez différentes des précédentes a pour principe de se baser sur l’écart entre une valeur attendue par le modèle, et la valeur effectivement constatée dans la réalité. Elle peut reposer sur un modèle dit de régression, assorti d’une alerte lorsque l’écart entre prédit et réalisé dépasse une limite fixée par l’utilisateur.

brown rocks on brown soil

Pour quelles applications utiliser la détection d’anomalies ?

Le champ des usages des algorithmes de détection d’anomalies est extrêmement vaste, nous vous en proposons donc uniquement quelques exemples orientés sur les domaines l’environnement, l’industrie, et la santé :

Détection de défaut de fabrication sur une ligne de production, dans le but de limiter les pertes en ce qui concerne le temps et les produits.

– Détection d’une consommation anormale d’énergie ou de réactifs sur une chaîne de production ou de traitement, de manière à apporter une action corrective le plus rapidement possible.

– Détection d’une fuite ou d’une défaillance sur un équipement, pour endiguer la perte existante au plus vite, prévenant aussi une probable aggravation, contribuant ainsi à la maintenance préventive.

– Survenue d’un phénomène naturel ou d’origine humaine anormal susceptible de perturber un écosystème ou un système industriel, par exemple une pollution exceptionnelle par son ampleur.

Aide au diagnostic médical, par la mise en évidence d’une signature anormale de certains paramètres physiologiques.

Correction d’un jeu de données historique : de manière plus générale, la détection de valeurs aberrantes permet de nettoyer certains ensembles de données dont certaines peuvent être erronées en raison de la défaillance de capteurs par exemple.

Ce dont nous avons nous besoin pour construire un modèle et faire des analyses : données et historiques

Historique nécessaire

A l’image de la plupart des modèles prédictifs de type « machine learning », les algorithmes de détection d’anomalies et de dérives doivent être nourris par un historique de données suffisant.

En général, la durée de l’historique de données nécessaire à un bon apprentissage est de l’ordre de quelques mois, pour de évènements très fréquents et récurrents, à quelques années, pour des évènements plus rares.

Type de données exploitables

Les données que vous pouvez nous fournir pour construire un modèle sont de diverses natures. En dehors de l’historique des grandeurs dont on souhaite estimer l’évolution ou mesurer les dérives, aucune n’est indispensable, mais elles sont autant d’éléments améliorant la performance du modèle de maintenance préventive. Selon le cas d’usage, on retrouvera par exemple :

– historiques des grandeurs à suivre / optimiser
– saisonnalité [intégrée par nos soins]
– données météorologiques (pluviométrie, vent, température, humidité…)
– conditions de fonctionnement (dans le cas d’un équipement, d’une machine) : vibrations, acoustique, fréquence, durée d’utilisation…
– consommations : d’énergie, de combustible, de réactif…

A partir de ces mesures de base, ou d’une partie d’entre elles, un grand nombre de variables secondaires sont calculées et intégrées dans la construction du modèle. L’historique fourni permettra également d’évaluer la pertinence de l’algorithme construit.

Pour aller plus loin et confronter votre cas d’usage à la faisabilité du développement d’un algorithme prédictif de type séries temporelles :

Comment mettre en place votre modèle de détection d’anomalies ?

Nous vous proposons des services de deux natures différentes :
– un développement selon une formule de type « data scientist à la demande » pour vos détections d’anomalies, personnalisé selon vos besoins, avec une phase d’étude et une phase de mise en production dans le système informatique de votre choix, facturé en fonction du nombre de jours de travail nécessaire au projet.
– un service de type abonnement récurrent, dont le coût est calculé à partir du nombre d’équipements ou d’unités concernés, des fonctionnalités souhaitées et de la complexité/durée nécessaire à construire le modèle.