Jak wyrażenia regularne czytają tekst

Wyrażenie regularne potrafi zamknąć wiele reguł w jednym krótkim stringu. Ta gęstość sprawia, że na początku wygląda jak przypadkowa mieszanina ukośników, nawiasów i gwiazdek. Regex jest jednak małym programem opisującym tekst. Najłatwiej czytać go od lewej do prawej, pytając przy każdym fragmencie: na jakiej pozycji jesteśmy, jaki znak może wystąpić, ile razy oraz która alternatywa jest dozwolona.

Literały są najprostszym punktem wyjścia

Zwykłe litery i cyfry oznaczają najczęściej same siebie. Wzorzec kot szuka trzech znaków w tej kolejności. Bez dodatkowych ograniczeń znajdzie je również wewnątrz dłuższego słowa. Domyślne wyszukiwanie nie wymaga dopasowania całego wejścia.

To ważna różnica w walidacji. Wzorzec trzech cyfr może zaakceptować abc123xyz, jeżeli kod sprawdza jedynie istnienie match. „Zawiera poprawny fragment” i „cała wartość ma poprawną formę” to dwie osobne operacje.

Metaznaki mają specjalne znaczenie

Kropka, gwiazdka, plus, pytajnik, nawiasy i inne symbole sterują językiem wzorca. Kropka oznacza zazwyczaj prawie dowolny znak. Jeśli aplikacja szuka literalnej kropki w domenie lub liczbie, musi użyć \..

Regex jest często zapisany wewnątrz stringa języka programowania. Najpierw parser języka interpretuje backslash, dopiero potem wzorzec trafia do engine. Raw string lub literal regex ogranicza to podwójne escaping. Podczas debugowania warto zobaczyć dokładny wzorzec przekazany bibliotece.

Klasa znaków opisuje jedną pozycję

[abc] nie oznacza słowa „abc”, lecz jeden znak wybrany z zestawu. Zakres [0-9] obejmuje cyfry ASCII. Negacja klasy pozwala określić wszystko poza wskazanymi znakami, na przykład tekst do najbliższego separatora.

Skróty \d, \w i \s zależą od engine i trybu Unicode. W protokole wymagającym ASCII jawny zakres jest precyzyjniejszy. W walidacji nazw człowieka ten sam zakres byłby zbyt wąski.

Quantifier działa na poprzednim elemencie

Gwiazdka oznacza zero lub więcej powtórzeń, plus jedno lub więcej, a pytajnik element opcjonalny. Nawiasy klamrowe definiują dokładne granice, na przykład {2,4}. Powtarzany element może być znakiem, klasą albo całą grupą.

ab+ powtarza tylko b, natomiast (ab)+ powtarza parę. Czytając wzorzec, warto zawsze wskazać, który fragment bezpośrednio poprzedza quantifier.

Greedy opisuje strategię szukania

Standardowy quantifier próbuje początkowo pochłonąć możliwie dużo tekstu. W <.*> kropka z gwiazdką może przejść od pierwszego otwarcia do ostatniego zamknięcia. Wariant lazy .*? szuka najkrótszego rozwiązania.

Lazy nie jest automatycznie szybszy ani poprawniejszy. Gdy granica jest znana, klasa wykluczająca znak końcowy, na przykład [^>]*, dokładniej opisuje intencję i ogranicza backtracking.

Alternatywa jest próbą kilku dróg

Pionowa kreska oznacza „lub”. kot|kod akceptuje oba słowa. Bez nawiasów zakres alternatywy może być szerszy niż oczekiwano. ^kot|kod$ kotwiczy pierwszą gałąź tylko na początku, a drugą tylko na końcu.

^(kot|kod)$ obejmuje warunkiem całość. Kolejność alternatyw może wpływać na znaleziony match, zwłaszcza gdy jedna jest prefiksem drugiej.

Kotwice sprawdzają pozycję

^ i $ odnoszą się do początku i końca wejścia albo linii, zależnie od flag. Word boundary sprawdza przejście między znakami słowa i resztą. Te elementy niczego nie zużywają, tylko stawiają warunek w bieżącej pozycji.

Dla ścisłej walidacji warto używać full-match API lub absolutnych kotwic danej engine. Niektóre wersje końca akceptują ostatni newline, co może być niepożądane.

Grupy porządkują i przechwytują

Nawiasy łączą fragment dla powtórzenia lub alternatywy. Capturing group dodatkowo zapisuje dopasowany tekst. Non-capturing group służy tylko strukturze i nie zmienia listy wyników.

Nazwane grupy, takie jak year czy slug, są czytelniejsze niż indeksy. Dodanie nowego nawiasu nie przesuwa wtedy interfejsu ekstrakcji.

Lookaround sprawdza kontekst bez zużycia

Lookahead i lookbehind wymagają albo zabraniają wzorca przed lub po pozycji, lecz nie dodają go do match. Przydają się do warunków kontekstowych. Obsługa, zwłaszcza lookbehind o zmiennej długości, różni się między silnikami.

Wiele zagnieżdżonych lookarounds może oznaczać, że kilka zwykłych kontroli będzie czytelniejsze. Jedna regex nie musi realizować całej logiki biznesowej.

Flags zmieniają język wzorca

Case-insensitive, multiline, dotall i Unicode wpływają na znaki, kropkę oraz kotwice. Ten sam widoczny string z innymi flagami akceptuje inny zbiór danych. Flagi są częścią definicji, a nie detalem uruchomienia.

Online tester może używać innej engine i domyślnych opcji niż produkcja. Przenosząc przykład, trzeba zachować środowisko.

Silniki regex nie są identyczne

JavaScript, PCRE, .NET, Java i RE2 wspierają podobną podstawę, lecz różne rozszerzenia. Backreferences i niektóre lookbehinds nie działają wszędzie. RE2 świadomie rezygnuje z części możliwości, aby zagwarantować liniowy czas.

Wzorzec należy rozwijać w docelowej bibliotece. Portowalność wymaga ograniczenia się do wspólnego podzbioru i testów w każdym środowisku.

Wynik match ma własny kontrakt

Regex może nie tylko potwierdzać obecność tekstu, ale zwracać zakresy i grupy. Kod korzystający z numeru grupy tworzy zależność od układu nawiasów. Zmiana pozornie kosmetyczna potrafi przesunąć wszystkie indeksy i przypisać dane do niewłaściwych pól.

Nazwane captures oraz non-capturing groups ograniczają ten problem. Dokumentacja powinna wskazywać, czy wynikiem jest pierwszy match, wszystkie matches, pełny zakres czy konkretne pola. Różne API bibliotek mogą też zwracać puste i nieobecne grupy w inny sposób.

Regex do zamiany ma dwie osobne składnie

Replacement string często interpretuje dolary, backslashe albo numery grup. Wartość bezpieczna jako pattern nie musi być bezpieczna jako replacement. Dane użytkownika wymagają odpowiedniej funkcji cytującej dla każdej strony operacji.

Przy złożonej transformacji callback jest czytelniejszy niż string z kilkoma referencjami. Kod może jawnie zbudować wynik i sprawdzić brakujące grupy.

Przykłady są najlepszym sposobem czytania

Każdy fragment powinien posiadać pozytywny i negatywny przykład. Wzorzec można rozdzielić na kotwice, klasy, grupy i quantifiers, a następnie wskazać, która część odrzuca konkretny przypadek.

Regex przestaje być ścianą symboli, gdy każda grupa odpowiada na jedną nazwaną potrzebę. Jak każdy kod zyskuje na małym zakresie, komentarzu i testach.