Éviter le catastrophic backtracking dans les regex

Une expression régulière peut être rapide pendant des mois puis bloquer un serveur avec une seule entrée. Le catastrophic backtracking apparaît lorsqu’un moteur explore trop de manières de répartir les mêmes caractères entre des parties ambiguës du motif. Sur une chaîne qui échoue tard, le temps peut croître de façon explosive. Pour une API exposée, ce comportement devient un risque ReDoS: déni de service par regex.

Le backtracking est normal, jusqu’à un point

Beaucoup de moteurs utilisent le backtracking pour gérer alternatives, quantificateurs, captures et lookarounds. Ils essaient une route, reculent si le reste échoue, puis en tentent une autre. Cette flexibilité rend les regex puissantes.

Le danger commence quand il existe énormément de routes équivalentes et que chacune échoue seulement à la fin. Le moteur ne sait pas laquelle est inutile, alors il les explore.

Les quantificateurs imbriqués sont suspects

Des motifs comme (a+)+ permettent de découper la même suite de caractères de nombreuses façons. Si le motif demande ensuite un caractère absent, le moteur peut essayer beaucoup de combinaisons avant d’abandonner.

Tous les quantificateurs imbriqués ne sont pas catastrophiques, mais ils méritent une revue. Demandez si deux parties peuvent consommer les mêmes caractères et si une condition finale échoue tard.

Les alternatives qui se recouvrent coûtent cher

Une alternative comme (ab|a)+ laisse plusieurs chemins pour des préfixes similaires. Lorsque la suite du motif échoue, le moteur revient en arrière et teste d’autres répartitions. Plus les alternatives se recouvrent, plus le raisonnement devient difficile.

Ordonner les alternatives peut aider, mais la meilleure solution consiste souvent à éliminer l’ambiguïté ou à remplacer la regex par une logique plus directe.

Réduisez l’espace de recherche

Les classes de caractères spécifiques limitent le backtracking. Pour lire jusqu’à une virgule, [^,]* est plus prévisible que .*. Les ancres et longueurs maximales réduisent aussi les possibilités.

Cette précision clarifie le motif et améliore sa sécurité. Le moteur a moins de chemins à explorer parce que chaque partie sait mieux ce qu’elle peut consommer.

Le moteur choisi change les garanties

Certains moteurs proposent groupes atomiques, quantificateurs possessifs ou timeouts. D’autres utilisent une approche qui évite certaines explosions mais ne supporte pas toutes les fonctionnalités. La plateforme choisie influence donc le risque.

Pour des entrées non fiables, un timeout est une dernière barrière utile. Il ne remplace pas un motif sain, mais limite les dégâts lorsque quelque chose échappe à la revue.

Testez surtout les échecs tardifs

Les pires performances apparaissent souvent sur des chaînes presque valides. Les tests doivent inclure préfixes répétitifs, délimiteurs absents, caractères finaux incorrects et tailles proches des limites. Mesurez le temps, pas seulement le résultat.

Si doubler la longueur multiplie le temps par dix ou cent, le motif n’est pas sûr. Mieux vaut le découvrir en test que dans un endpoint public.

ReDoS est un problème de sécurité

Un attaquant n’a pas besoin d’accéder à une base pour exploiter une regex vulnérable. Il lui suffit d’envoyer une entrée qui occupe un worker. Formulaires, recherches, filtres, routes et validateurs sont des surfaces classiques.

Les mitigations se complètent: limites de taille, rate limiting, timeouts, moteur adapté et motifs revus. Compter sur la bonne volonté des utilisateurs n’est pas une défense.

Simplifier est souvent la meilleure correction

Une regex trop ambitieuse peut être remplacée par plusieurs validations simples. Vérifier la longueur, puis les caractères, puis une règle métier en code donne souvent de meilleurs messages et moins d’ambiguïté.

Pour des formats complexes, un parseur linéaire est plus fiable. La regex reste excellente pour des motifs locaux; elle devient risquée lorsqu’elle tente de comprendre tout un langage.

Surveillez les lenteurs

Les logs de timeouts, les métriques de latence par endpoint et les alertes sur entrées rejetées peuvent révéler un motif coûteux. Une regex de production doit terminer rapidement pour les entrées attendues et pour les entrées hostiles.

Les limites d’entrée sont une défense simple

Même un motif raisonnable devient risqué si l’entrée peut être gigantesque. Avant la regex, imposez une longueur maximale adaptée au domaine. Une adresse, un slug ou un code interne n’a pas besoin de plusieurs mégaoctets. Ce contrôle réduit le travail du moteur et clarifie les erreurs.

Les limites doivent être appliquées au même endroit pour tous les consommateurs. Sinon un endpoint peut être protégé tandis qu’un job d’import reste vulnérable.

La correction doit supprimer l’ambiguïté

Quand une regex montre un comportement exponentiel, ajouter simplement un timeout n’est qu’une protection de secours. La correction durable consiste à rendre les classes exclusives, retirer les quantificateurs imbriqués ou découper la validation. Le motif doit avoir moins de chemins possibles, pas seulement moins de temps pour les essayer.

Après correction, gardez l’entrée qui posait problème dans les tests. Elle devient un garde-fou concret contre le retour du même risque.

Éviter le catastrophic backtracking revient à penser comme le moteur: moins d’ambiguïté, limites claires et tests d’échec. Avec ces règles, les regex restent rapides et sûres.