Spécifications du modèle bAInIAd utilisé pour les prévisions sur previ-baignade.org

Le modèle bAInIAd est un modèle d’intelligence artificielle qui utilise des algorithmes de machine learning (apprentissage automatique en français) entraîné à partir des mesures réglementaires d’Escherichia Coli organisées par les Agences Régionales de Santé (ARS) sur plus de 1100 sites de baignade en France. Développé par Akwari, ce modèle prédictif permet d’alimenter la plateforme d’information en temps réel previ-baigniade.org. pour le calcul du risque de pollution de l’eau lié aux contaminations bactériologiques d’ordre fécal.

 

Sites de baignades modélisés

A ce jour, seuls les sites du littoral en eau dite côtière sont pris en charge par le modèle. Ce dernier est donc spécialisé pour anticiper la qualité bactériologique de l’eau de mer (salée) liée à la présence d’E. coli. Parmi les 1500 sites concernés, près de 400 n’ont pas été inclus dans le modèle en raison du trop faible nombre de mesures historiques insuffisant pour alimenter le modèle de manière suffisamment fiable.

Données prises en compte

Le modèle s’appuie principalement sur des données liées aux événements météorologiques, à la force des marées, et à la saisonnalité. Elles proviennent de Météo France et de l’ECMWF, institut européen pour la météorologie. Sont notamment pris en compte la pluviométrie, les températures, la force et la direction du vent, la nébulosité, et le marnage entre mer haute et basse. De nombreuses autres variables tierces sont construites à partir de ces grandeurs « brutes ».

Les mesures du nombre de la concentration de bactéries dans les échantillons d’eau de baignade sont issues quant à elles du site data.gouv.fr, qui rapporte les données des prélèvements mis en œuvre par les ARS.

Historique et entraînement du modèle

Le modèle d’intelligence artificielle est entraîné sur les données de 2015 à 2021, soit plus de 100 000 prélèvements et mesures, en suivant le principe de validation croisée. Il est basé sur l’algorithme histgradientBoostingClassifier développé par Scikit-learn). Il s’agit d’un modèle de classification dont on définit la cible de prédiction comme l’appartenance à deux groupes définis par la limite de concentration en Ecoli de 500 UFC / 100mL. Pour définir le niveau d’alerte associé à l’échelle de couleur sur le site PréviBaignade, c’est probabilité de dépasser ce seuil qui est prise en compte. Il s’agit du seuil réglementaire dont le dépassement du 90ème percentile engendre une interdiction de baignade à l’année, comme l’indique cette référence gouvernementale. Cette probabilité est aussi corrélée à celle de dépasser le seuil de 1000 UFC/100mL, qui dicte la recommandation de fermeture temporaire du site de baignade en cours de saison, en ce qui concerne les eaux côtières (eaux de mer) : vous pouvez consulter ici la réglementation concernant ces seuils.

Qualité du modèle obtenu

La métrique choisie pour caractériser la justesse du modèle est le score de l’aire sous la courbe ROC (ROC AUC score), qui s’élève pour ce modèle à 0.78. Il s’agit d’une performance généralement considérée comme bonne sans être excellente, sachant que 0.5 correspond à un tirage aléatoire et 1 à un modèle parfait.

La qualité du modèle pourrait être améliorée par une fréquence de prélèvement plus élevée, ou encore des informations sur l’heure de prélèvement (notamment pour caractériser plus précisément la marée, haute, basse, montante, descendante) qui ne sont pas restituées dans la base publique.

Une autre limitation est engendrée par l’évolution possible des systèmes d’assainissement. D’important travaux d’amélioration, ou l’ajout de capacités de traitement significatives peuvent rendre temporairement et localement le modèle caduque. Cependant, ces évolutions sont en général progressives, et permettent au modèle de « s’adapter » notamment grâce à la plus grande importance attribuée par le modèle aux années récentes.