Modellauswahl
Die Wahl des richtigen Modells ist entscheidend für den Erfolg eines ML-Projekts. Diese Seite zeigt systematische Kriterien aus Daten- und Use-Case-Perspektive sowie praktische Entscheidungshilfen.
Inhaltsverzeichnis
- Übersicht
- Perspektive Daten
- Perspektive Use Case
- Entscheidungsbaum zur Modellauswahl
- Best Practices
- Abgrenzung zu verwandten Dokumenten
Übersicht
Die Modellauswahl ist einer der kritischsten Schritte im Machine-Learning-Prozess. Ein falsch gewähltes Modell kann trotz perfekter Datenaufbereitung zu unbefriedigenden Ergebnissen führen. Die Auswahl erfolgt anhand zweier Hauptperspektiven: den Dateneigenschaften und den Anforderungen des Use Cases.
flowchart TB
subgraph Entscheidungsfaktoren
A[Modellauswahl]
A --> B[Perspektive Daten]
A --> C[Perspektive Use Case]
end
subgraph Daten["Dateneigenschaften"]
B --> D[Target-Typ]
B --> E[Lernstrategie]
B --> F[Datenumfang]
B --> G[Datenqualität]
end
subgraph UseCase["Use-Case-Anforderungen"]
C --> H[Performance]
C --> I[Einfachheit]
C --> J[Interpretierbarkeit]
C --> K[Rechenkosten]
C --> L[Modellvergleich]
end
style A fill:#4a90d9,stroke:#2c5282,color:#fff
style B fill:#48bb78,stroke:#276749,color:#fff
style C fill:#ed8936,stroke:#c05621,color:#fff
Perspektive Daten
Die Eigenschaften der verfügbaren Daten bestimmen maßgeblich, welche Modelle überhaupt in Frage kommen.
Target-Typ: Kategorial vs. Numerisch
Der Typ der Zielvariable ist das erste Auswahlkriterium:
| Target-Typ | Aufgabe | Geeignete Modelle |
|---|---|---|
| Kategorial (binär) | Klassifikation | Logistische Regression, Decision Tree, Random Forest, SVM |
| Kategorial (mehrere Klassen) | Multi-Class-Klassifikation | Random Forest, XGBoost, Neuronale Netze |
| Numerisch (stetig) | Regression | Lineare Regression, Random Forest Regressor, XGBoost Regressor |
| Kein Target | Clustering/Anomalie | K-Means, DBSCAN, Isolation Forest |
Lernstrategie
flowchart TD
A[Gibt es gelabelte Daten?]
A -->|Ja| B[Supervised Learning]
A -->|Nein| C[Unsupervised Learning]
B --> D{Target-Typ?}
D -->|Kategorial| E[Klassifikation]
D -->|Numerisch| F[Regression]
C --> G{Ziel?}
G -->|Gruppen finden| H[Clustering]
G -->|Ausreißer erkennen| I[Anomalieerkennung]
G -->|Features reduzieren| J[Dimensionsreduktion]
style A fill:#4a90d9,stroke:#2c5282,color:#fff
style B fill:#48bb78,stroke:#276749,color:#fff
style C fill:#ed8936,stroke:#c05621,color:#fff
Umfang des Datenbestands
Die Datenmenge beeinflusst die Modellwahl erheblich:
| Datenmenge | Empfohlene Modelle | Begründung |
|---|---|---|
| Klein (<1.000) | Lineare Modelle, Decision Trees, Ridge/Lasso | Weniger anfällig für Overfitting |
| Mittel (1.000-100.000) | Random Forest, XGBoost, SVM | Gute Balance aus Performance und Robustheit |
| Groß (>100.000) | XGBoost, Neuronale Netze, LightGBM | Können komplexe Muster lernen |
Datenqualität: Outlier und Missing Values
Verschiedene Modelle reagieren unterschiedlich auf Datenqualitätsprobleme:
| Problem | Robuste Modelle | Sensible Modelle |
|---|---|---|
| Ausreißer | Decision Trees, Random Forest | Lineare Regression, K-Means |
| Missing Values | XGBoost (nativ), Random Forest | SVM, Neuronale Netze |
| Unbalancierte Klassen | XGBoost (mit scale_pos_weight), Random Forest | Logistische Regression |
Perspektive Use Case
Neben den Daten spielen die Anforderungen des konkreten Anwendungsfalls eine zentrale Rolle.
Performance: Was ist akzeptabel?
Vorab festlegen, welche Metriken relevant sind und welche Schwellenwerte akzeptabel sind.
Simplicity: Das richtige Maß an Komplexität
Grundregel: Kein komplexes Modell für ein einfaches Problem.
flowchart LR
A[Einfaches Problem]
B[Komplexes Problem]
A --> C[Lineare Modelle<br/>Decision Trees]
B --> D[Ensemble-Methoden<br/>Neuronale Netze]
C --> E[Schnell trainierbar<br/>Leicht interpretierbar]
D --> F[Höhere Genauigkeit<br/>Mehr Ressourcen nötig]
style A fill:#48bb78,stroke:#276749,color:#fff
style B fill:#ed8936,stroke:#c05621,color:#fff
Empfehlung: Immer mit einem einfachen Baseline-Modell starten und Komplexität nur bei Bedarf erhöhen:
Interpretability: Nachvollziehbarkeit der Entscheidungen
Je nach Anwendungsbereich ist die Interpretierbarkeit unterschiedlich wichtig:
| Anwendungsbereich | Interpretierbarkeit | Empfohlene Modelle |
|---|---|---|
| Medizin/Gesundheit | Sehr hoch | Decision Trees, Logistische Regression |
| Finanzen/Kredit | Hoch | Lineare Modelle, Rule-based Systems |
| Marketing | Mittel | Random Forest mit Feature Importance |
| Bilderkennung | Niedrig akzeptabel | Neuronale Netze, Deep Learning |
Computation Costs: Zeit- und Ressourcenbedarf
Das Modell muss in angemessener Zeit trainierbar und mit verfügbarer Hardware anwendbar sein:
| Modell | Trainingszeit | Inferenzzeit | Speicherbedarf |
|---|---|---|---|
| Logistische Regression | Sehr schnell | Sehr schnell | Gering |
| Decision Tree | Schnell | Sehr schnell | Gering |
| Random Forest | Mittel | Schnell | Mittel |
| XGBoost | Mittel-Lang | Schnell | Mittel |
| Neuronale Netze | Lang | Variabel | Hoch |
Competition: Systematischer Modellvergleich
Wenn mehrere Modelle die Grundanforderungen erfüllen, hilft ein systematischer Vergleich:
Entscheidungsbaum zur Modellauswahl
Der folgende Entscheidungsbaum bietet eine praktische Orientierungshilfe:
flowchart TD
A[Start: Modellauswahl]
A --> B{Gelabelte<br/>Daten?}
B -->|Ja| C{Target-Typ?}
B -->|Nein| D[Unsupervised]
C -->|Kategorial| E{Interpretierbarkeit<br/>wichtig?}
C -->|Numerisch| F{Lineare<br/>Beziehung?}
E -->|Ja| G[Decision Tree<br/>Logistische Regression]
E -->|Nein| H{Datenmenge?}
H -->|Klein| I[Random Forest<br/>SVM]
H -->|Groß| J[XGBoost<br/>Neural Networks]
F -->|Ja| K[Lineare Regression<br/>Ridge/Lasso]
F -->|Nein| L[Random Forest<br/>XGBoost Regressor]
D --> M{Ziel?}
M -->|Gruppierung| N[K-Means<br/>DBSCAN]
M -->|Anomalien| O[Isolation Forest]
M -->|Dimensionsreduktion| P[PCA<br/>LDA]
style A fill:#4a90d9,stroke:#2c5282,color:#fff
style G fill:#48bb78,stroke:#276749,color:#fff
style I fill:#48bb78,stroke:#276749,color:#fff
style J fill:#48bb78,stroke:#276749,color:#fff
style K fill:#48bb78,stroke:#276749,color:#fff
style L fill:#48bb78,stroke:#276749,color:#fff
style N fill:#48bb78,stroke:#276749,color:#fff
style O fill:#48bb78,stroke:#276749,color:#fff
style P fill:#48bb78,stroke:#276749,color:#fff
Interaktive Mindmap mit einem breiten Methodenüberblick: Machine Learning Algorithms Mind Map
Best Practices
Do’s ✓
- Baseline zuerst: Immer mit einem einfachen Modell als Referenz starten
- Cross-Validation nutzen: CV für robuste Leistungsschätzungen einsetzen
- Mehrere Metriken: Modelle anhand mehrerer relevanter Metriken bewerten
- Dokumentieren: Festhalten, warum ein Modell gewählt wurde
- Iterativ vorgehen: Komplexität schrittweise erhöhen
Don’ts ✗
- Nicht das komplexeste Modell wählen: Komplexität ≠ bessere Performance
- Nicht nur Accuracy betrachten: Besonders bei unbalancierten Daten irreführend
- Nicht blind kopieren: Was bei anderen funktioniert, passt nicht automatisch zu Ihren Daten
- Nicht Trainingszeit ignorieren: Produktionsanforderungen berücksichtigen
- Nicht Interpretierbarkeit vernachlässigen: Stakeholder müssen Ergebnisse verstehen
Abgrenzung zu verwandten Dokumenten
| Thema | Abgrenzung |
|---|---|
| Regression | Modellauswahl ist strategische Entscheidung ueber die Algorithmusklasse; Aufgabentyp (Regression/Klassifikation) bestimmt Richtung |
| Hyperparameter-Tuning | Modellauswahl waehlt den Algorithmus; Hyperparameter-Tuning optimiert dessen Einstellungen danach |
| Overfitting | Modellauswahl beruecksichtigt Komplexitaets-Trade-offs; Overfitting ist ein haeufiges Ergebnis zu komplexer Modelle |
Version: 1.0
Stand: Januar 2026
Kurs: Machine Learning. Verstehen. Anwenden. Gestalten.