Dieser Artikel ist älter als zwei Jahre und womöglich veraltet!

Reguläre Ausdrücke - Eine Einführung

Man braucht sie immer wieder und man ist froh wenn man sie einfach kann: Reguläre Ausdrücke (auch RegEx genannt). Einsatz finden Sie praktisch überall.

Ob man jetzt Formulareingaben überprüfen will, Apache mod_rewrite benutzen oder beim Programmieren etwas in einer Zeichenkette erkennen will: Man braucht sie überall. Ich weiß, dass es eine “zache” Sache ist, aber wenn man es einmal kann ist es nicht mehr so schlimm.

Beginnen wir einfach einmal mit den vorkommenden Zeichen und einem Beispiel:

Beispiel 1

1www\.[a-z_-]+\.[a-z]+

Dieser reguläre Ausdruck erkennt Internetadressen, die mit www beginnen (und keine Subdomain sind). Ganz am Anfang steht natürlich “www”. Da dies in diesem Beispiel immer so sein muss können wir es einfach so lassen wie es ist.

Als nächstes sehen wir für den Punkt \. stehen. Da der Punkt bei den regulären Ausdrücken ein Sonderzeichnen ist müssen wir ihn mit einem Backslash maskieren.

Dann sehen wir [a-z_-]+. Hier dürfen (Klein)buchstaben von a-z vorkommen, sowie Unterstriche und Bindestriche. Ohne das Plus am Ende würde aber nur ein Zeichen erkannt werden. Das Plus bedeutet, dass der vorherige Ausdruck einmal oder öfter vorkommen darf.

Dann kommt noch einmal ein Punkt und dann die Top-Level-Domain, deren Buchstaben, hier vereinfacht, beliebig oft vorkommen dürfen.

Und so haben wir einen regulären Ausdruck erstellt, denn wir jetzt auch zum Beispiel mit Hilfe von HTML5 einsetzen können, und zwar so:

1<input type="text" pattern="www\.[a-z_-]+\.[a-z]+" />

Um auch etwas davon zu merken kann man auch eine CSS-Regel einführen:

1<style>
2	:valid{
3		background-color: lime;
4	}
5</style>

Beispiel 2

Ein weiteres Beispiel wären zum Beispiel Telfonnummern, die in ein Formular eingegeben werden. So eine Nummer könnte zum Beispiel so aussehen:

07612/1434 oder 046121264 oder auch so: 07623 1134

Beginnen wir einfach einmal mit der Null: Wir können sie genauso lassen, da sie ja immer vorkommt.

10

Als nächstes haben wir vier Zahlen. Dass sie genau vier Mal vorkommen sollen drückt man mit {4} aus:

1[0-9]{4}

Dann kommt ein Schrägstrich, oder nichts oder ein Leerzeichen. In der Klammer steht ein oder-Ausdruck: Entweder ein Schrägstrich oder ein Leerzeichen. Dahinter steht ein Fragezeichen, was bedeutet, dass der vorherige Ausdruck (die Klammer) nicht vorkommen muss.

1(/| )?

Dannach haben wir noch einmal vier Zahlen:

1[0-9]{4}

Und so haben wir:

10[0-9]{4}(/| )?[0-9]{4}

Weitere Informationen und weitere Zeichen bei Wikipedia

Weitere Artikel

Wie man den +1 Button einbaut

Auch bei mir macht sich das Sommerloch langsam breit und zerrt an den Kräften, die man braucht um einen anständigen Artikel zu schreiben, doch ich habe mich noch einmal aufegrafft und schreibe eine kleine Anleitung zum Einbau des +1 Button für Google+. Ich weiß, dass das keine sehr anspruchsvolle …

Johannes Mittendorfer
Johannes Mittendorfer