Evaluation

Modellbewertung ist der Teilprozess, der die Qualität der Vorhersagen eines ML-Systems quantifiziert und Möglichkeiten zur Leistungsverbesserung aufzeigt.

Inhaltsverzeichnis

Überblick
Zentrale Fragen der Evaluation
Good Practices der Evaluation
Evaluation-Techniken im Überblick
Zusammenfassung
Weiterführende Themen
Abgrenzung zu verwandten Dokumenten

Überblick

Nach dem Training eines Modells stellt sich die entscheidende Frage: Wie gut funktioniert es wirklich? Die Evaluation liefert darauf fundierte Antworten. Sie misst die Leistung des trainierten Modells anhand der Qualität seiner Vorhersagen und hilft dabei, Stärken und Schwächen zu identifizieren.

flowchart LR
    subgraph training["Training"]
        T["Trainiertes<br/>Modell"]
    end
    
    subgraph evaluation["Evaluation"]
        T --> P["Vorhersagen<br/>erstellen"]
        P --> M["Metriken<br/>berechnen"]
        M --> A["Ergebnisse<br/>analysieren"]
    end
    
    subgraph decision["Entscheidung"]
        A --> Q{"Gut genug?"}
        Q -->|Ja| D["Deploy"]
        Q -->|Nein| I["Iteration:<br/>Modell verbessern"]
    end
    
    style T fill:#c8e6c9
    style M fill:#e3f2fd
    style Q fill:#fff9c4
    style D fill:#c8e6c9
    style I fill:#ffecb3

Zentrale Fragen der Evaluation

Die Modellbewertung beantwortet drei fundamentale Fragen:

Frage	Was sie bedeutet	Konsequenz
Wie gut funktioniert das Modell?	Quantifizierung der Vorhersagegenauigkeit auf ungesehenen Daten	Objektive Leistungsmessung
Ist das Modell gut genug für den Produktivbetrieb?	Vergleich mit definierten Schwellenwerten oder Baseline-Modellen	Go/No-Go-Entscheidung
Werden mehr Daten die Leistung verbessern?	Analyse von Learning Curves und Generalisierungsverhalten	Strategieentscheidung für nächste Schritte

Hinweis: Die Evaluation erfolgt immer auf Daten, die das Modell während des Trainings nicht gesehen hat – typischerweise dem Test-Set.

Good Practices der Evaluation

Eine gründliche Modellbewertung umfasst mehrere Perspektiven. Jede beleuchtet einen anderen Aspekt der Modellqualität:

flowchart LR
    subgraph core["<b>Kern-Evaluation"]
        G["Modellgüte<br/><small>Accuracy, F1, R², MAE</small>"]
        R["Residuenanalyse<br/><small>Fehlerverteilung prüfen</small>"]
    end
    
    subgraph features["<b>Feature-Analyse"]
        F["Feature Importance<br/><small>Welche Merkmale sind wichtig?</small>"]
    end
    
    subgraph robustness["<b>Robustheit & Stabilität"]
        RO["Robustheitstest<br/><small>Cross-Validation, Bootstrapping</small>"]
        S["Sensitivitätsanalyse<br/><small>Wie reagiert das Modell auf Änderungen?</small>"]
    end
    
    subgraph interpretation["<b>Interpretation&Kommunikation"]
        I["Modellinterpretation<br/><small>Warum trifft das Modell diese Entscheidung?</small>"]
        K["Kommunikation<br/><small>Key Takeaways vermitteln</small>"]
    end
    
    core ~~~ features ~~~ robustness ~~~ interpretation
    
    style G fill:#c8e6c9
    style R fill:#c8e6c9
    style F fill:#e3f2fd
    style RO fill:#fff9c4
    style S fill:#fff9c4
    style I fill:#f3e5f5
    style K fill:#f3e5f5

Bewertung der Modellgüte

Die Modellgüte wird durch aufgabenspezifische Metriken quantifiziert:

Aufgabe	Typische Metriken
Klassifikation	Accuracy, Precision, Recall, F1-Score, AUC-ROC
Regression	R², MAE, MSE, RMSE
Clustering	Silhouetten-Koeffizient, Davies-Bouldin-Index

Residuenanalyse

Die Residuen (Differenz zwischen tatsächlichem und vorhergesagtem Wert) geben Aufschluss über systematische Fehler:

Zufällige Verteilung um Null → Modell erfasst die Muster gut
Erkennbare Muster → Hinweis auf nicht erfasste Zusammenhänge
Ausreißer → Einzelne problematische Vorhersagen identifizieren

Feature Importance / Selection

Welche Merkmale tragen am meisten zur Vorhersage bei?

Irrelevante Features können entfernt werden
Wichtige Features sollten besonders sorgfältig aufbereitet werden
Interpretierbarkeit des Modells verbessern

Robustheitstests

Prüfung, ob das Modell konsistente Ergebnisse liefert:

Cross-Validation: Mehrfache Aufteilung der Daten
Bootstrapping: Konfidenzintervalle für Metriken
Learning Curve: Verhalten bei unterschiedlichen Datenmengen

Sensitivitätsanalyse

Wie reagiert das Modell auf Veränderungen in den Eingabedaten?

Partial Dependence Plots
Ceteris-Paribus-Analysen
Identifikation kritischer Feature-Bereiche

Modellinterpretation

Ganzheitliche Analyse der Ergebnisse:

Explorative Analyse der prognostizierten Werte
Vergleich mit Domänenwissen
Plausibilitätsprüfung der Vorhersagen

Kommunikation der Ergebnisse

Zusammenfassung für Stakeholder:

Key Takeaways klar formulieren
Einschränkungen transparent machen
Handlungsempfehlungen ableiten

Evaluation-Techniken im Überblick

Die folgende Tabelle zeigt, welche Techniken für lokale (einzelne Vorhersagen) und globale (gesamtes Modell) Evaluation eingesetzt werden:

Aspekt	Lokal (einzelne Vorhersage)	Global (gesamtes Modell)
Modellgüte	Probability	Accuracy, F1-Score, Confusion Matrix, R², MAE, Silhouette-Koeffizient, Hyperparameter-Tuning
Residuenanalyse	Δ real / predicted	Δ real / predicted, Residual-Plots
Feature Importance	Break-Down-Analyse, Shapley Values	Feature Importance/Selection, Recursive Feature Elimination
Robustheitstest	Δ real / predicted, Ceteris-Paribus-Analyse	Cross-Validation, Bootstrapping, Learning Curve, Validation Curve, ROC, AUC
Modellinterpretation	Break-Down-Analyse, Shapley Values	Histogramm, Box-Plot, Scattergramm, Trees, Feature Importance
Sensitivitätsanalyse	Ceteris-Paribus-Analyse	Ceteris-Paribus-Profile (CDP), Accumulated Local Dependence Profile (ALDP), Partial Dependence Plot
Kommunikation	Best of above, keep it simple	Best of above, keep it simple

Zusammenfassung

flowchart TB
    subgraph eval["<b>Evaluation"]
        direction TB
        G["📊 Metriken<br/><small>Wie genau?</small>"]
        R["📈 Residuen<br/><small>Welche Fehler?</small>"]
        F["🔍 Features<br/><small>Was ist wichtig?</small>"]
        RO["🔄 Robustheit<br/><small>Wie stabil?</small>"]
        I["💡 Interpretation<br/><small>Warum so?</small>"]
    end
    
    eval --> E{"Entscheidung"}
    E -->|"Alle Aspekte OK"| D["✅ Deploy"]
    E -->|"Verbesserungsbedarf"| IT["🔁 Iteration"]
    
    style D fill:#c8e6c9
    style IT fill:#ffecb3

Die Evaluation ist kein einmaliger Schritt, sondern ein iterativer Prozess. Die gewonnenen Erkenntnisse fließen zurück in die Modellentwicklung – sei es durch bessere Datenaufbereitung, andere Algorithmen oder optimierte Hyperparameter.

Merksatz: Ein Modell ist erst dann gut, wenn es auch auf ungesehenen Daten zuverlässig funktioniert – und genau das prüft die Evaluation.

Weiterführende Themen

Classification: Confusion Matrix, ROC-Kurve, AUC
Regression: R², MAE, Residual-Plots
Cross-Validation: Robustere Modellbewertung
XAI (Explainable AI): SHAP Values, LIME

Abgrenzung zu verwandten Dokumenten

Dokument	Frage
Bewertung Klassifizierung	Welche Metriken sind für Klassifikationsaufgaben zentral?
Bewertung Regression	Wie wird die Qualität numerischer Vorhersagen eingeordnet?
Cross Validation	Wie wird Modellqualität robuster über mehrere Folds geschätzt?
Bootstrapping	Wie lässt sich die Unsicherheit einer Schätzung zusätzlich quantifizieren?
XAI Erklärbare KI	Wie werden Modellentscheidungen über reine Metriken hinaus verständlich gemacht?

Referenzen:

scikit-learn Dokumentation: Model Evaluation

Version: 1.0
Stand: Januar 2026
Kurs: Machine Learning. Verstehen. Anwenden. Gestalten.