Un modèle d’IA peut-il prévoir les déversements d’eau usée sur un réseau d’assainissement ?

Causes des débordements d’eau usée

Les débordements d’eau usée sur les réseaux d’assainissement demeurent très fréquents en Europe et partout dans le monde lors d’intempéries qui saturent la capacité de transport des réseaux (postes de relèvement) et de traitement sur stations d’épuration. Ces déversements sont dus pour la plupart à l’arrivée d’eaux claires dites parasites qui proviennent des précipitations pénétrant de manière anormale dans les canalisations (mauvais branchements, infiltrations souterraines à travers des fissures…). Pour contribuer à analyser ces problématiques et cibler les actions de correction et de réparation à entreprendre, Akwari propose un outil automatisé de diagnostic des eaux claires parasites, libre d’accès. 

Pourquoi vouloir anticiper ces déversements ?

Ces débordements provoquent donc des rejets polluants dans les milieux naturels, représentant ainsi une menace pour la biodiversité et les populations animales et végétales, ainsi qu’un risque sanitaire pour les personnes via la contamination des zones de baignade notamment. La pollution des sites de conchyliculture, très sensibles aux dégradations bactériologiques, génère aussi un impact direct sur les activités humaines.

 Il est donc très utile d’être en mesure d’anticiper ces déversements dans le but de mettre en place des actions préventives (interdiction de baignade, relevage temporaire hors d’eau des coquillages élevés à proximité), ou des moyens de gestion dynamique du schéma d’assainissement lorsqu’ils sont possible (utilisation de bassin de stockage, activation de capacités de traitement spécifiques aux évènements pluvieux).

Données exploitées et construction du modèle

L’objectif poursuivi est la prévision du risque de débordements par ouvrage à une échéance de 24h à 5 jours.

Pour étudier la pertinence et la performance de ce type de prévision, nous proposons la construction d’un modèle de machine learning basé sur l’historique des données de débordements mises à disposition à cette url par l’agence écossaise de l’environnement, de 2017 à 2021, en se concentrant sur les secteurs géographiques des régions d’Edimbourg et de Glasgow. Cette base fournit les heures de début et de fin de débordement et leur localisation.
Au total, sont retenus 26 ouvrages d’assainissement, qui comptent 11577 jours avec débordement sur la période, pour 34339 jours sans débordement.

Au-delà de cet historique, les seules données externes utilisées sont les précipitations en trois localisations réparties sur le périmètre. Cette résolution géographique est clairement insuffisante pour obtenir un résultat optimal, mais permet d’obtenir des prédictions correctes dans une démarche de démonstration de faisabilité. Par ailleurs, on peut souligner que les incertitudes liées aux prévisions météorologiques s’ajoutent à celles du modèle lui-même.

Résultats

Plusieurs méthodes de mesures existent pour mesurer la capacité d’un modèle à bien classer des évènements, qui résident ici en deux classes, pour chaque journée et chaque localisation de l’historique : débordement ou non débordement. La qualité du modèle se base, quelque soit la formule finale choisie sur les caractéristiques suivantes :
– Vrais positifs : les débordements ayant eu lieu et bien prédits par le modèle
– Faux positifs : les débordements prédits mais n’ayant pas eu lieu
– Vrais négatifs : les non débordements prédits, et n’ayant effectivement pas eu lieu
– Faux négatifs : les débordements ayant eu lieu mais n’ayant pas été prédits.

Le modèle renvoyant une probabilité de débordement, il est possible de choisir le seuil de risque à partir duquel on décide de classer un jour comme avec débordement. Ce choix permet de convertir le modèle en un classifieur dit sensible, ou un classifieur dit spécifique.

Le classifieur sensible est défini par un seuil de détection bas que nous avons choisi à un niveau de 25% : dès que la probabilité de débordement atteint ce seuil, il classera l’évènement dans la catégorie débordement. Ce choix à pour effet d’engendrer une proportion importante de faux positifs : puisqu’on classe plus « facilement » un évènement comme débordement, il arrivera de nombreuses fois qu’il n’y ait en réalité pas de débordement. Au contraire, ce classifieur sensible présentera une faible proportion de faux négatifs (débordements non prévus), puisque le seuil de « détection » est bas.

Le classifieur spécifique, quant a lui, est défini par un seuil de détection haut, choisi ici à 75% : l’évènement n’est classé dans la catégorie débordements qu’au-delà de ce seuil plus élevé. A l’inverse du classifieur sensible, le classifieur spécifique donne lieu à une faible proportion de faux positifs, mais à une proportion plus importante de faux négatifs (débordements non prévus) : on est presque sûr de ne pas se tromper si on prévoit la survenue d’un débordement, mais le risque est plus grand d’en rater.

Classifieur sensible

Classifieur spécifique

Si vous souhaitez utiliser un modèle de prévision de déversements sur une interface en ligne, ou l’intégrer à votre système informatique via une API par exemple ? N’hésitez pas à nous contacter pour en savoir plus.