Penetrationstest-Methodik: PTES, OWASP, OSSTMM, BSI-Leitfaden und TIBER-EU

Ein Penetrationstest ohne Methodik ist kein Penetrationstest - es ist ein Scanvorgang mit menschlicher Begleitung. Professionelle Penetrationstests folgen strukturierten Methoden mit definierten Phasen, klaren Scope-Grenzen und reproduzierbaren Ergebnissen. Die Wahl der Methode hängt vom Ziel ab: Compliance-Pentest, adversariale Red-Team-Übung oder applikationsspezifisches Web-Testing erfordern unterschiedliche Ansätze. Dieser Guide erklärt die führenden Methodiken und zeigt, welche für welchen Testtyp geeignet ist.

Überblick: Die fünf Hauptmethodiken

PTES (Penetration Testing Execution Standard) ist eine vollständige Lifecycle-Methodik von Pre-Engagement bis Reporting, die Netzwerk, Web, Social Engineering und Physical abdeckt. Stärke: praxis-orientiert, von Pentestern entwickelt. URL: pentest-standard.org

OWASP Testing Guide (OTG) fokussiert auf Web-Applikationen und APIs mit 91+ detaillierten Testfällen in 11+ Kategorien. Aktuelle Version: OTG v4.2 (2020). URL: owasp.org/www-project-web-security-testing-guide

OSSTMM (Open Source Security Testing Methodology Manual) deckt alle Kanäle ab (Netzwerk, Mensch, Physisch, Telekommunikation) mit einem wissenschaftlichen Ansatz und messbarer Sicherheit (RAVs). Version 3 vom Institute for Security and Open Methodologies.

BSI-Leitfaden Penetrationstest (BSI-CS 115) ist ein deutsches BSI-Dokument mit guter Orientierung für deutsche Auftraggeber und KRITIS-Betreiber. Es definiert Testkategorien, Klassen, Vorgehensweisen und Vertragsaspekte.

TIBER-EU (Threat Intelligence-Based Ethical Red Teaming) ist das ECB-Framework für systemrelevante Finanzinstitute mit Advanced Red Team Assessments und APT-Simulation. Pflicht für große EU-Banken, koordiniert durch nationale Zentralbanken.

PTES - Die 7 Phasen

Phase 1: Pre-Engagement Interactions definiert Scope, Testzeitraum, Erlaubnisschreiben (Letter of Authorization), Notfallkontakte, Kommunikationskanäle und Testziele. Eskalationsregel: bei CVSSv3 9.0+ sofortige Meldung ohne vorherige Exploitation.

Scope-Template-Pflichtfelder: Ziel-IP-Ranges mit expliziten Ausschlüssen, Domains (inkl. Wildcards, excl. bestimmte Subdomains), Testzeiten (Geschäftszeiten/24-7/außerhalb), erlaubte Techniken (Social Engineering, Physical ja/nein), Denial of Service (grundsätzlich NEIN außer explizit vereinbart) sowie Datenhandling-Regelung (erbeutete Daten nur für Nachweis, sofortige Löschung nach Test).

Phase 2: Intelligence Gathering umfasst passive OSINT (DNS-Enumeration via dnsx/subfinder/amass, WHOIS, Certificate Transparency, Google Dorking, Shodan/Censys, LinkedIn, theHarvester, Maltego) sowie aktive Reconnaissance (Port-Scanning, Service-Versionen, WAF-Fingerprinting).

Phase 3: Threat Modeling analysiert die Angriffsfläche, identifiziert die wertvollsten Assets, erstellt ein Bedrohungsmodell (STRIDE oder ad-hoc) und priorisiert nach dem Vorgehen eines echten Angreifers.

Phase 4: Vulnerability Analysis identifiziert Schwachstellen automatisiert (Nessus, OpenVAS, Nuclei) und manuell, verifiziert Findings (kein False-Positive-Rauschen), recherchiert CVEs für identifizierte Versionen und prüft Konfigurationsschwächen sowie Business-Logic-Fehler.

Phase 5: Exploitation nutzt Schwachstellen im erlaubten Scope aus mit dem Ziel, die Ausnutzbarkeit nachzuweisen. Der Proof of Concept zeigt, wie weit der Zugriff eskaliert werden kann (Pivot, Lateral Movement, Daten-Exfiltration mit Testdaten, Persistenz-Demonstration ohne echte Backdoor).

Phase 6: Post-Exploitation bewertet nach erfolgreichem Exploit die tatsächliche Reichweite: Privilege Escalation bis zur maximalen Eskalationsstufe, Domain-Compromise-Nachweis (z.B. secretsdump), Lateral Movement, Evidence-Collection (Screenshots, Logs, Hashes) und Business-Impact-Bewertung.

Phase 7: Reporting erstellt Executive Summary (für Management, Business-Impact ohne technische Details), technischen Bericht (für IT mit Reproduce-Anleitung), Finding Cards (Schwachstelle + CVSS + PoC + Empfehlung) sowie einen priorisierten Remediation-Leitfaden.

OWASP Testing Guide - Für Web-Applikationen

Der OWASP Testing Guide v4 (https://owasp.org/www-project-web-security-testing-guide/) bietet 91+ Testfälle für Web-Applikationen, strukturiert in Kategorien:

OTG-INFO (10 Tests): Server-Fingerprinting, Application-Framework-Erkennung, Content für Information Leakage, Application-Architektur-Mapping
OTG-CONFIG/CONF (12 Tests): Netzwerk-Infrastruktur, Platform-Konfiguration, HTTP-Methoden, HTTP-Strict-Transport-Security, File-Extension-Handling
OTG-AUTHN/AUTH (10 Tests): Credentials über verschlüsselten Kanal, Default Credentials, Bypassing Authentication, Browser Cache Weakness (JWT im LocalStorage), schwache Passwort-Policy, MFA-Testing
OTG-AUTHZ (5 Tests): Directory Traversal, Bypassing Authorization, IDOR (Insecure Direct Object References)
OTG-SESS (8 Tests): Bypassing Session Management, Cookie Attributes, CSRF, Logout-Funktionalität, Session-Token-Entropie
OTG-INPVAL/INPV (19 Tests): Reflected XSS, Stored XSS, SQL Injection, XML Injection, SSRF, Code Injection, HTTP Smuggling
OTG-APIT (neu in v4): GraphQL-Testing, REST-API-Testing, JWT-Validierung, Rate-Limiting

Jeder Testfall folgt einem einheitlichen Format: Summary (was wird getestet und warum), Test Goals, How to Test (Schritt-für-Schritt), Test Tools, Remediation und Referenzen.

Wesentliche OWASP-Tools: OWASP ZAP (Automated + Manual Testing), Burp Suite (De-facto-Standard für manuelles Web-Testing), sqlmap (SQL-Injection), ffuf (Fuzzing, Directory-Enumeration), nikto (Web-Server-Scanner), JWT_Tool sowie Postman für API-Testing.

BSI-Penetrationstest-Leitfaden - Deutsche Perspektive

Der BSI-Leitfaden (BSI-CS 115) unterscheidet Klassen nach Informationstiefe:

Klasse A: Prüfung auf Basis öffentlich verfügbarer Informationen (Black-Box). OSINT-Informationen, bekannte Schwachstellen in veröffentlichten Komponenten. Niedrigster Aufwand, geeignet für externe Erstbewertung.

Klasse B: Prüfung nach Einarbeitung mit Grobkenntnis (Grey-Box). Systemdokumentation wird übergeben. Standard-Penetrationstest für regelmäßige Sicherheitsüberprüfung.

Klasse C: Detailprüfung mit vollständiger Dokumentation, Quellcode und Konfiguration (White-Box). Umfangreichste Prüfung für KRITIS und Finanzsektor.

Aggressivitätsstufen: Vorsichtig (keine Betriebsunterbrechung), Mittel (akzeptiertes Risiko für Betriebsunterbrechung), Aggressiv (maximale Ausnutzung, nur mit Wartungsfenster).

Prüfungskategorien nach BSI: Kategorie A (Security Layer: Firewall, IDS/IPS, VPN), Kategorie B (Systemebene: OS-Härtung, Patchstand), Kategorie C (Applikationsebene: Web-Apps, OWASP Top 10), Kategorie D (Netzwerkebene: Segmentierung, Switch-Konfiguration), Kategorie E (Social Engineering, wenn in Scope).

BSI-spezifische Anforderungen: schriftliche Genehmigung für alle Testaktivitäten, Pentest-Bericht nach BSI-Berichtsstandard, Bewertung nach BSI-Gefährdungskatalog, Empfehlungen nach IT-Grundschutz-Bausteinen, bei KRITIS-Betreibern möglicherweise BSI-Koordination erforderlich.

TIBER-EU - Red Teaming für den Finanzsektor

TIBER-EU (Threat Intelligence-Based Ethical Red Teaming) wurde von der Europäischen Zentralbank entwickelt und richtet sich an systemrelevante Finanzinstitute (Banken, Versicherungen, Zahlungsdienstleister). Es ist regulatorische Anforderung für große EU-Banken.

TIBER-EU-Besonderheiten: echte Bedrohungsakteure werden simuliert (Nation-States, APT), Threat Intelligence muss von einem zertifizierten TI-Provider eingekauft werden, der Zeithorizont beträgt 3-6 Monate, und nur die Führungsebene (Board-Level) kennt den Test - keine Vorab-Information für IT und SOC.

Phase 1 (Preparation): Generic Threat Landscape Report vom TI-Provider, Targeted Threat Intelligence Report für das spezifische Institut, Briefing des Red Teams.

Phase 2 (Testing): Reconnaissance ohne Einschränkungen, Initial Access (Phishing, Physical, Technical), Post-Exploitation bis zu definierten Critical Functions, Persistenz, Lateral Movement, Privilege Escalation.

Phase 3 (Closure): Replay (Red Team erklärt Angriffspfade an Blue Team), Remediation-Priorisierung, formaler TIBER-Report für die Aufsichtsbehörde.

TIBER-DE wird durch die Deutsche Bundesbank koordiniert; Reporting geht an BaFin und Bundesbank.

Vergleich TIBER vs. Standard-Pentest: Ein Standard-Pentest dauert 3-10 Tage, arbeitet mit bekannten Systemen und schriftlicher Genehmigung. TIBER dauert 3-6 Monate, ohne Vorwarnung für IT, mit echter APT-Simulation. Der Aufwand und die Kosten (typisch 100.000€+) sind ungleich höher, aber die Bewertung der echten Sicherheitslage ist realistischer.

Scope-Definition - Was in den Vertrag muss

Ein professioneller Pentest-Vertrag enthält unverzichtbar:

Zu testende Systeme: explizite IP-Bereiche und Domains mit In-Scope und Out-of-Scope, bei Cloud/SaaS Genehmigung des Providers (AWS, Azure, GCP haben eigene Policies)
Erlaubte Testmethoden: Black/Grey/White Box, Social Engineering ja/nein, Physical ja/nein, Denial of Service grundsätzlich NEIN
Zeitfenster: Arbeitszeiten, Wochenende, Wartungsfenster für Produktionssysteme
Notfallkontakte: IT-Verantwortlicher mit Mobilnummer, Geschäftsführung für Eskalation, verschlüsselte Kommunikation (Signal, PGP)
Datenschutz: dokumentierbare Daten, Aufbewahrungsfristen, NDA, Löschrecht nach Abschluss
Haftungsausschluss: Pentester haftet nicht für Ausfälle bei korrekter Durchführung; Auftraggeber bestätigt Rechtmäßigkeit
Deliverables: Executive Summary (1-2 Seiten), technischer Bericht mit Findings und CVSS, Retest (inklusive oder kostenpflichtig), Abgabe binnen 10 Werktagen nach Testende

Testtypen und wann welcher passt

Black Box Test: Keine Vorabinformationen, simuliert einen echten externen Angreifer. Vorteil: realistische Simulation. Nachteil: viel Zeit für Reconnaissance, weniger Testtiefe. BSI-Entsprechung: Klasse A.

Grey Box Test (empfohlen): Teil-Informationen (Standard-User-Account, API-Dokumentation). Simuliert einen kompromittierten Mitarbeiter oder Insider-Angreifer. Beste Balance für die meisten Unternehmen. BSI-Entsprechung: Klasse B.

White Box Test: Volle Information (Quellcode, Architektur, Admin-Zugänge). Höchste Testabdeckung, simuliert Insider mit maximalem Wissen. BSI-Entsprechung: Klasse C.

External Test: Angriff von außen auf Web, APIs und Fernzugänge. Häufigster Testtyp, simuliert internet-basierten Angreifer.

Internal Test: Mit Netzwerkzugang (physisch oder VPN). Testet Active Directory, Netzwerk-Segmentierung und laterale Bewegung.

Assumed Breach: Start mit bereits kompromitiiertem User-Account. Testet: was kann der Angreifer von hier aus erreichen? Fokus auf Lateral Movement und Privilege Escalation.

Pentest-Dokumentation und Reporting

Ein professioneller Pentest-Bericht enthält:

Executive Summary (1-3 Seiten): Scope und Testzeitraum, Gesamtergebnis, Top-3-Risiken nicht-technisch beschrieben, Empfehlung sofortiger Maßnahmen
Methodology: verwendetes Framework (PTES, OWASP, BSI), Testtyp (Black/Grey/White Box), Scope-Grenzen inkl. was nicht getestet wurde
Findings pro Schwachstelle: Title, CVSSv3.1 Score mit Vektor, Business Risk, Technical Description, Proof of Concept mit Screenshots, betroffene Systeme, Remediation-Schritte, Referenzen (CVEs, OWASP, CWE)
Remediation Summary: priorisierte Liste Kritisch → Hoch → Mittel → Niedrig → Informational, Abhängigkeiten
Conclusion: Gesamtbewertung Sicherheitsniveau, Empfehlung nächster Schritte

Risk-Rating: CVSS v3.1 Base Score liefert den objektiven technischen Score; der Environmental Score passt ihn an die spezifische Umgebung an; der Temporal Score berücksichtigt verfügbare Exploits. Im Bericht wird kombiniert: Kritisch (CVSS 9.0-10.0 + hoher Business Impact), Hoch (CVSS 7.0-8.9 oder CVSS < 7.0 + kritischer Kontext), Mittel (CVSS 4.0-6.9 + mittlerer Impact), Niedrig (CVSS 0.1-3.9 + geringer Impact), Informational (kein direktes Risiko, aber Best Practice).

Retesting: Nach Behebung durch den Auftraggeber werden die gemeldeten Schwachstellen erneut getestet. Bestätigung, dass der Patch korrekt und vollständig ist, keine Regression eingeführt wurde, und ein formaler Attestation Letter bescheinigt die Behebung.

Pentest-Zertifizierungen

OSCP (Offensive Security Certified Professional): 24h Lab + 24h Bericht. Weltweit anerkannter Industriestandard - zeigt, dass der Inhaber echte Systeme kompromittieren kann.

OSCE3 (= OSCP + OSEP + OSED): Drei Prüfungen für Exploitation, Evasion und Development. Höchstes Offensive-Security-Zertifikat, selten und besonders wertvoll.

PNPT (Practical Network Penetration Tester): TCM Security, junior-freundlich und praxisorientiert mit Fokus auf Active Directory und Reporting.

CEH (Certified Ethical Hacker): EC-Council Multiple-Choice-Prüfung mit viel Theorie und wenig Praxis. Bekannt in Compliance-Kreisen, weniger bei Praktikern geschätzt.

CREST: Regulatorische Anforderung in UK (PCI DSS, FCA), hoch angesehen in Europa.

TIBER-EU: ECB-Framework für Finanzinstitute, Pflicht für große EU-Banken.