2. What‘sitgoodfor…? TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 2 http://www.xkcd.com/208/
3. Johan Hülsen Projektmanager @ TRG – The Reach Group Analyse Datenmanagement IT-Betreuung Kein Programmierer Ein bisschen Excel Twitter.com/johanstormarn Facebook.com/johan.huelsen Xing.com/profile/Johan_vHuelsen Skype: Johanstormarn Wer spricht? TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 3
4. Ein Beispiel zum Einstieg | I TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 4
6. Unsere Regex: * Es kann ein Tab da stehen Slow Motion! | #1 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 6 <url> <loc>http://blogs-optimieren.de/</loc> <lastmod>2011-03-10T09:32:43+00:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> <url> …
7. Unsere Regex: <.*?>(?!http://).*</.*?> Irgendwas steht zwischen ‚<‘ und ‚>‘ danach kommt was (aber nicht http://) und ein schließender Tag gefolgt von einem Zeilenumbruch Slow Motion | #2 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 7 <url> <loc>http://blogs-optimieren.de/</loc> <lastmod>2011-03-10T09:32:43+00:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> <url> …
8. Unsere Regex: </?loc> <loc> oder </loc> Slow Motion | #3 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 8 <url> <loc>http://blogs-optimieren.de/</loc> </url> <url> …
9. </?.*> ?* Ein öffnender oder schließender Tag Gefolgt von einem Leerzeichen (oder auch nicht) Gefolgt von einem Zeilenumbruch (oder auch nicht) Slow Motion | #4 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 9 <url> http://blogs-optimieren.de/ </url> <url> …
10. #1 (#2 | #3 | #4) * ( <.*?>(?!http://).*</.*?> | </?loc> | </?.*> ?* ) Die Pipe ‚|‘ steht für ein oder Die Klammern sorgen für die Reihenfolge Slow Motion | DONE TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 10 http://blogs-optimieren.de/
11. Agenda 11 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
12. Uralt Grundlagen 1956 aus der Medizin Suchen und Ersetzen Wildcards on Steroids Alles, was durch ein Muster zu beschreiben ist, kann mit RegEx ausgelesen und ersetzt werden Gefühlte 1.000 Dialekte (mit PREG/PCRE kann man aber eigentlich nicht falsch liegen) Was ist RegS?Ex TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 12
13. Search andReplace Daten umformatieren Listen zu Tabellen URL-/HTML-/Text- Muster erkennen und ersetzen Search andDestroy Müllabfuhr Search… Validierung von Eingaben Nutzernamen Passwörter (X-Zeichen nach Schema XYZ) Telefonnummern Mail-Adressen URLs Never trust a user Anwendungsfälle TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 13
14. Agenda 14 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
15. Basics | Brauchbare Hilfe TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 15 Ganz groß: http://www.slideshare.net/andreizm/andreis-regex-clinic HTML und RegEx werden niemals echte Freunde: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
16. Vernünftiger Text-Editor Textwrangler (Mac) Notepad++ (Windows) VIM (Unix/Terminal) Validatoren hilfreich für Einsteiger Einfach mal Googlen… Validator +Regex Reggy (http://reggyapp.com/) OSX-Tool Cheatsheets http://www.addedbytes.com/cheat-sheets/regular-expressions-cheat-sheet/ Gibtaber nocheinigeandere Terminal… Basics | Tools TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 16
17. Zeichen gruppieren [a-z] -> [a-h] geht natürlich auch [A-Z] -> [A-H] geht natürlich auch [0-9] -> [1-5] geht natürlich auch [ ;.,:!?] Shortcuts für Zeichenklassen -> whitespaces -> kein Whitespace -> 0-9 -> kein 0-9 -> Wort -> kein Wort Basics | Zeichenklassen TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 17
18. [a-z] = 1 []+ = >1 []? = 1 oder 0 []* = 0, >1 []{3} = 3 []{3,5} = 3, 4, 5 + und * lassen sich mit einem ? Von gierig auf genügsam schalten Basics | Quantoren TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 18
19. ^ -> Zeilenanfang $ -> Zeilenende | -> oder -> Befehlszeichen die Sonderbedeutung nehmen Anker und Anderes TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 19
20. Agenda 20 TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen
21. Leerzeilen löschen + durch Leerzeilen löschen Datum umformatieren 01.02.1900 durch 1900-02-01 ({2}).({2}).({4}) durch -- HTML Tags loswerden <.+?> oder <[^>]+> je nach Engine Prinzipiell ist HTML nicht durch RegEx brauchbar zu parsen Bestimmte Dateien aus der Liste löschen .*(jpg|jpeg|css|js) Grep „Google|Slurp|Bing“ Was braucht man sonst andauernd? TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 21
22. Prinzipiell alles filterbar Referrer Browsertypen … Keywords Google Analytics TRG | SEO CAMPIXX BERLIN 2011| Vortrag von: Johan Hülsen 22