Modell-Steckbriefe
Kompakte Referenz zu den wichtigsten Machine Learning Algorithmen.
Jeder Steckbrief enthält Einsatzbereich, Kernprinzip, Vor- und Nachteile sowie passende Bewertungsmetriken.
Inhaltsverzeichnis
- Algorithmen auf einen Blick
- Übersicht nach Lernstrategie
- Supervised Learning
- Unsupervised Learning
- Schnellreferenz zur Modellauswahl
- Abgrenzung zu verwandten Dokumenten
Algorithmen auf einen Blick
| Algorithmus | Lernstrategie | Einsatzbereich | Hauptmetrik |
|---|---|---|---|
| Decision Tree | Supervised | Klassifikation, Regression | Accuracy / R² |
| Random Forest | Supervised | Klassifikation, Regression | Accuracy / R² |
| Linear Regression | Supervised | Regression | R², MAE |
| Logistic Regression | Supervised | Klassifikation | Accuracy, AUC |
| Neural Network | Supervised | Klassifikation, Regression | Accuracy / R² |
| XGBoost | Supervised | Klassifikation, Regression | Accuracy / R² |
| LDA | Supervised | Dimensionsreduktion, Klassifikation | Erklärte Varianz |
| K-Means | Unsupervised | Clustering | Silhouetten-Koeffizient |
| DBSCAN | Unsupervised | Clustering, Anomalieerkennung | Silhouetten-Koeffizient |
| Apriori | Unsupervised | Assoziationsanalyse | Support, Confidence, Lift |
| PCA | Unsupervised | Dimensionsreduktion | Erklärte Varianz |
Tipp: Mit einfachen, interpretierbaren Modellen (Linear/Logistic Regression, Decision Tree) starten und die Komplexität nur bei Bedarf steigern. Die beste Modellwahl hängt immer vom konkreten Use Case, den verfügbaren Daten und den Anforderungen an Interpretierbarkeit ab.
Interaktive Mindmap mit einem breiten Methodenüberblick: Machine Learning Algorithms Mind Map
Übersicht nach Lernstrategie
Die folgende Tabelle bietet einen schnellen Überblick über alle behandelten Algorithmen, kategorisiert nach Lernstrategie und Einsatzbereich.
flowchart TB
subgraph SL["🎯 Supervised Learning"]
direction TB
SL_CLASS["Klassifikation"]
SL_REG["Regression"]
SL_DIM["Dimensionsreduktion"]
SL_CLASS --> DT1["Decision Tree"]
SL_CLASS --> RF1["Random Forest"]
SL_CLASS --> LOG["Logistic Regression"]
SL_CLASS --> NN1["Neural Network"]
SL_CLASS --> XGB1["XGBoost"]
SL_REG --> DT2["Decision Tree"]
SL_REG --> RF2["Random Forest"]
SL_REG --> LIN["Linear Regression"]
SL_REG --> NN2["Neural Network"]
SL_REG --> XGB2["XGBoost"]
SL_DIM --> LDA["LDA"]
end
subgraph UL["🔍 Unsupervised Learning"]
direction TB
UL_CLUST["Clustering"]
UL_ANOM["Anomalieerkennung"]
UL_ASSOC["Assoziationsanalyse"]
UL_DIM["Dimensionsreduktion"]
UL_CLUST --> KM["K-Means"]
UL_CLUST --> DBS["DBSCAN"]
UL_ANOM --> DBSCAN_ANOM["DBSCAN<br/>(siehe Clustering)"]
UL_ASSOC --> APR["Apriori"]
UL_DIM --> PCA["PCA"]
end
style SL fill:#e8f5e9,stroke:#2e7d32
style UL fill:#e3f2fd,stroke:#1565c0
Supervised Learning
Decision Tree
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Klassifikation, Regression |
| Kernprinzip | Hierarchische Struktur von Entscheidungsregeln basierend auf Feature-Splits |
Beschreibung
Ein Entscheidungsbaum teilt die Daten auf der Grundlage von Entscheidungsregeln auf. Er ist einfach zu verstehen und zu interpretieren. Aus dem Trainingsdatensatz wird eine hierarchische Struktur von möglichst wenigen Regeln abgeleitet. Die beste Aufteilung wird anhand von Kriterien wie der Entropie oder dem Gini-Index ermittelt.
Vorteile
- Hohe Interpretierbarkeit und Transparenz
- Keine Datenskalierung erforderlich
- Kann kategoriale und numerische Features verarbeiten
- Schnelles Training und Vorhersage
Nachteile
- Neigung zu Overfitting bei tiefen Bäumen
- Instabil bei kleinen Datenänderungen
- Kann komplexe Beziehungen schlecht erfassen
- Bias bei unbalancierten Klassen
Bewertungsmetriken
| Klassifikation | Regression |
|---|---|
| Accuracy, F1-Score | R², MAE |
| AUC, Confusion Matrix | Residual Plot |
| Cohen’s Kappa |
Wichtige Hyperparameter
max_depth: Maximale Tiefe des Baumsmin_samples_split: Minimale Samples für einen Splitmin_samples_leaf: Minimale Samples pro Blattcriterion: Splitting-Kriterium (gini, entropy, log_loss)
Random Forest
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Klassifikation, Regression |
| Kernprinzip | Ensemble-Methode, die mehrere Entscheidungsbäume kombiniert (Bagging) |
Beschreibung
Random Forest ist eine Gruppe (Ensemble) von Entscheidungsbäumen. Mehrere Bäume werden in „zufälliger” Weise aufgebaut und bilden einen Random Forest. Jeder Baum wird aus einer anderen Bootstrap-Stichprobe von Daten und Merkmalen erstellt. Die Vorhersagen aller Bäume werden dann aggregiert (Mehrheitsentscheidung oder Mittelwert).
Vorteile
- Robuster als einzelne Entscheidungsbäume
- Weniger anfällig für Overfitting
- Liefert Feature Importance
- Parallelisierbar
Nachteile
- Weniger interpretierbar als einzelne Bäume
- Höherer Speicher- und Rechenaufwand
- Kann bei vielen Features langsam werden
- Tendiert zu Bias bei unbalancierten Daten
Bewertungsmetriken
| Klassifikation | Regression |
|---|---|
| Accuracy, F1-Score | R², MAE |
| AUC, Confusion Matrix | Residual Plot |
| Cohen’s Kappa |
Wichtige Hyperparameter
n_estimators: Anzahl der Bäume im Waldmax_depth: Maximale Tiefe der einzelnen Bäumemax_features: Anzahl Features pro Split (‘sqrt’, ‘log2’, int)bootstrap: Bootstrap-Sampling aktivieren
Linear Regression
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Regression |
| Kernprinzip | Modelliert linearen Zusammenhang zwischen Features und Zielvariable |
Beschreibung
Die lineare Regression ist ein statistisches Verfahren, bei dem eine abhängige Variable (y) durch eine oder mehrere unabhängige Variablen (x) erklärt wird. Es wird ein linearer Zusammenhang angenommen, darstellbar als Gerade y = b + ax mit b = Achsenabschnitt und a = Steigung. Das Training minimiert den quadratischen Fehler zwischen Vorhersage und tatsächlichem Wert.
Vorteile
- Sehr hohe Interpretierbarkeit
- Schnelles Training
- Gut für lineare Zusammenhänge
- Koeffizienten zeigen Feature-Einfluss
Nachteile
- Nur für lineare Beziehungen geeignet
- Empfindlich gegenüber Ausreißern
- Kann Multikollinearität nicht gut handhaben
- Begrenzte Ausdrucksstärke
Bewertungsmetriken
| Metrik | Beschreibung |
|---|---|
| R² | Bestimmtheitsmaß (0-1) |
| MAE | Mittlerer absoluter Fehler |
| MSE / RMSE | (Wurzel aus) mittlerer quadratischer Fehler |
| Residual Plot | Visualisierung der Fehlerverteilung |
Wichtige Hyperparameter
fit_intercept: Achsenabschnitt berechnennormalize: Features normalisieren (deprecated, besser StandardScaler)
Logistic Regression
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Klassifikation |
| Kernprinzip | Schätzt Wahrscheinlichkeiten für Klassenzugehörigkeit mittels Sigmoid-Funktion |
Beschreibung
Die logistische Regression ist eine Form der Regressionsanalyse, bei der ein kategoriales Ergebnis vorhergesagt wird. Die Wahrscheinlichkeit für das Eintreten einer Klasse wird geschätzt. Die Sigmoid-Funktion transformiert die lineare Kombination der Features in Wahrscheinlichkeiten zwischen 0 und 1. In der Grundform werden dichotome Ergebnisse (0 oder 1) vorhergesagt.
Vorteile
- Gute Interpretierbarkeit
- Liefert Wahrscheinlichkeiten
- Schnelles Training
- Wenig Hyperparameter
Nachteile
- Nur für linear separierbare Daten optimal
- Kann komplexe Muster nicht erfassen
- Empfindlich gegenüber Multikollinearität
Bewertungsmetriken
| Metrik | Beschreibung |
|---|---|
| Accuracy | Anteil korrekter Klassifikationen |
| Precision / Recall | Relevanz / Sensitivität |
| F1-Score | Harmonisches Mittel von Precision und Recall |
| AUC-ROC | Fläche unter der ROC-Kurve |
| Cohen’s Kappa | Übereinstimmungsmaß |
Wichtige Hyperparameter
C: Inverse Regularisierungsstärkepenalty: Regularisierungsart (‘l1’, ‘l2’, ‘elasticnet’)solver: Optimierungsalgorithmusmax_iter: Maximale Iterationen
Neural Network (MLP)
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Klassifikation, Regression |
| Kernprinzip | Schichten von Neuronen mit gewichteten Verbindungen und Aktivierungsfunktionen |
Beschreibung
Künstliche neuronale Netze bestehen aus Schichten von Knoten (Neuronen) und können komplexe Beziehungen zwischen Eingaben und Ausgaben modellieren. Jedes Neuron berechnet eine gewichtete Summe seiner Eingaben, addiert einen Bias und wendet eine Aktivierungsfunktion an. Das Training erfolgt über Backpropagation und Gradient Descent.
Vorteile
- Kann komplexe, nichtlineare Muster lernen
- Flexibel einsetzbar
- Gut skalierbar
- State-of-the-Art für viele Aufgaben
Nachteile
- “Black Box” - schwer interpretierbar
- Benötigt viele Daten
- Rechenintensiv
- Viele Hyperparameter
Bewertungsmetriken
| Klassifikation | Regression |
|---|---|
| Accuracy, F1-Score | R², MAE |
| AUC, Confusion Matrix | Residual Plot |
| Cohen’s Kappa |
Wichtige Hyperparameter
hidden_layer_sizes: Architektur (z.B. (100, 50))activation: Aktivierungsfunktion (‘relu’, ‘tanh’, ‘logistic’)solver: Optimierer (‘adam’, ‘sgd’, ‘lbfgs’)learning_rate_init: Initiale Lernratealpha: L2-Regularisierung
XGBoost
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Klassifikation, Regression |
| Kernprinzip | Gradient Boosting mit optimierter Implementierung für Geschwindigkeit und Leistung |
Beschreibung
XGBoost (Extreme Gradient Boosting) ist eine optimierte Implementierung von Gradient Boosting. Beim Boosting werden mehrere schwache Modelle sequentiell kombiniert, wobei jedes neue Modell die Fehler der vorherigen korrigiert. XGBoost bietet zusätzlich Regularisierung, paralleles Computing und Cache-Optimierungen, was es etwa 10-mal schneller als herkömmliches Gradient Boosting macht.
Vorteile
- Sehr hohe Vorhersagegenauigkeit
- Eingebaute Regularisierung gegen Overfitting
- Effizientes Training durch Parallelisierung
- Robuster Umgang mit fehlenden Werten
Nachteile
- Viele Hyperparameter
- Weniger interpretierbar
- Kann bei kleinen Datensätzen overfitten
- Höherer Speicherverbrauch
Bewertungsmetriken
| Klassifikation | Regression |
|---|---|
| Accuracy, F1-Score | R², MAE |
| AUC, Confusion Matrix | Residual Plot |
| Cohen’s Kappa |
Wichtige Hyperparameter
n_estimators: Anzahl der Boosting-Rundenmax_depth: Maximale Baumtiefelearning_rate: Schrittweite (eta)subsample: Anteil der Trainingsdaten pro Rundecolsample_bytree: Anteil der Features pro Baum
Linear Discriminant Analysis (LDA)
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Supervised Learning |
| Einsatzbereich | Dimensionsreduktion, Klassifikation |
| Kernprinzip | Findet Projektionen, die die Klassentrennung maximieren |
Beschreibung
Die Linear Discriminant Analysis ist eine Technik zur Dimensionsreduktion, die sich auf die Maximierung der Trennbarkeit zwischen bekannten Kategorien konzentriert. Die Methode sucht nach einer linearen Kombination der Merkmale, die die größte Varianz zwischen den Klassen und die kleinste Varianz innerhalb jeder Klasse aufweist. LDA kann auch direkt zur Klassifikation verwendet werden.
Vorteile
- Kombiniert Dimensionsreduktion mit Klassenziel
- Gut interpretierbar
- Schnelle Berechnung
- Effektiv bei vielen Features
Nachteile
- Nur für lineare Trennungen geeignet
- Empfindlich bei unbalancierten Klassen
- Benötigt mehr Samples als Features
- Annahme: Normalverteilung der Daten
Bewertungsmetriken
| Dimensionsreduktion | Klassifikation |
|---|---|
| Erklärte Varianz | Accuracy, F1-Score |
| AUC, Confusion Matrix |
Wichtige Hyperparameter
n_components: Anzahl der Komponentensolver: Berechnungsmethode (‘svd’, ‘lsqr’, ‘eigen’)
Unsupervised Learning
K-Means
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Unsupervised Learning |
| Einsatzbereich | Clustering |
| Kernprinzip | Partitioniert Daten in k Cluster basierend auf Ähnlichkeit zu Clusterzentren |
Beschreibung
K-Means-Clustering ist ein einfacher Ansatz zum Partitionieren eines Datensatzes in K verschiedene, nicht überlappende Cluster. Der Algorithmus initialisiert K Clusterzentren und ordnet jeden Datenpunkt dem nächstgelegenen Zentrum zu. Dann werden die Zentren als Mittelwert ihrer zugeordneten Punkte neu berechnet. Dieser Prozess wiederholt sich bis zur Konvergenz.
Vorteile
- Einfach und schnell
- Gut skalierbar
- Funktioniert gut bei kugelförmigen Clustern
- Leicht interpretierbar
Nachteile
- Anzahl K muss vorab festgelegt werden
- Empfindlich gegenüber Ausreißern
- Bevorzugt gleichgroße, kugelförmige Cluster
- Abhängig von Initialisierung
Bewertungsmetriken
| Metrik | Beschreibung |
|---|---|
| Silhouetten-Koeffizient | Qualität der Clusterzuordnung (-1 bis 1) |
| Elbow-Methode | Optimale Clusteranzahl finden |
| Inertia | Summe der quadratischen Abstände zu Zentren |
Wichtige Hyperparameter
n_clusters: Anzahl der Clusterinit: Initialisierungsmethode (‘k-means++’, ‘random’)n_init: Anzahl der Initialisierungenmax_iter: Maximale Iterationen
DBSCAN
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Unsupervised Learning |
| Einsatzbereich | Clustering |
| Kernprinzip | Dichtebasiertes Clustering, erkennt Cluster beliebiger Form |
Beschreibung
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ist ein dichtebasierter Clustering-Algorithmus. Er identifiziert Cluster als Bereiche hoher Datendichte, getrennt durch Bereiche geringer Dichte. Im Gegensatz zu K-Means kann DBSCAN Cluster beliebiger Form erkennen und klassifiziert Rauschpunkte (Outlier) separat.
Vorteile
- Findet Cluster beliebiger Form
- Erkennt automatisch Outlier
- Keine Clusteranzahl vorab nötig
- Robust gegenüber Ausreißern
Nachteile
- Empfindlich gegenüber Parameterwahl (eps, min_samples)
- Schwierigkeiten bei unterschiedlichen Dichten
- Nicht geeignet für hochdimensionale Daten
- Kann bei großen Datenmengen langsam sein
Bewertungsmetriken
| Metrik | Beschreibung |
|---|---|
| Silhouetten-Koeffizient | Qualität der Clusterzuordnung |
| Davies-Bouldin-Index | Cluster-Separation (niedriger = besser) |
| Anzahl gefundener Cluster | Plausibilitätsprüfung |
Wichtige Hyperparameter
eps: Maximaler Abstand für Nachbarschaftmin_samples: Minimale Punkte für Kernpunktmetric: Distanzmetrik (‘euclidean’, ‘manhattan’, etc.)
Hinweis zur Anomalieerkennung: Für die Erkennung von Anomalien und Ausreißern eignet sich DBSCAN (siehe Abschnitt “DBSCAN” oben), da dieser Algorithmus Rauschpunkte automatisch identifiziert und beliebig geformte Cluster erkennen kann.
Apriori
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Unsupervised Learning |
| Einsatzbereich | Assoziationsanalyse |
| Kernprinzip | Findet häufige Itemsets und leitet Assoziationsregeln ab |
Beschreibung
Der Apriori-Algorithmus dient dem Auffinden von Zusammenhängen in transaktionsbasierten Datenbanken. Er identifiziert häufig gemeinsam auftretende Items und generiert daraus Assoziationsregeln. Klassische Anwendung ist die Warenkorbanalyse: Welche Produkte werden häufig zusammen gekauft?
Vorteile
- Intuitive Ergebnisse
- Etablierter, gut verstandener Algorithmus
- Liefert interpretierbare Regeln
- Vielseitig einsetzbar
Nachteile
- Kann bei vielen Items sehr langsam werden
- Generiert oft viele Regeln
- Erfordert geschickte Parameterwahl
- Nur für kategoriale/diskrete Daten
Bewertungsmetriken
| Metrik | Beschreibung |
|---|---|
| Support | Häufigkeit des Itemsets in allen Transaktionen |
| Confidence | Bedingte Wahrscheinlichkeit der Regel |
| Lift | Stärke der Abhängigkeit (>1 = positive Assoziation) |
Wichtige Hyperparameter
min_support: Minimaler Support-Schwellenwertmin_confidence: Minimale Konfidenz für Regelnmin_lift: Minimaler Lift-Wert
Principal Component Analysis (PCA)
| Eigenschaft | Beschreibung |
|---|---|
| Lernstrategie | Unsupervised Learning |
| Einsatzbereich | Dimensionsreduktion |
| Kernprinzip | Findet orthogonale Achsen maximaler Varianz zur Projektion der Daten |
Beschreibung
Die Hauptkomponentenanalyse (PCA) ist eine Methode zur Dimensionsreduktion, die Datenpunkte in einen Unterraum mit weniger Dimensionen projiziert. Der Unterraum wird so gewählt, dass die Varianz der projizierten Daten maximal ist. Die neuen Achsen (Hauptkomponenten) sind unkorreliert und nach erklärter Varianz sortiert.
Vorteile
- Reduziert Dimensionalität effektiv
- Entfernt korrelierte Features
- Beschleunigt nachfolgende Algorithmen
- Hilft bei Visualisierung
Nachteile
- Kann wichtige nichtlineare Strukturen verlieren
- Hauptkomponenten schwer interpretierbar
- Empfindlich gegenüber Skalierung
- Informationsverlust möglich
Bewertungsmetriken
| Metrik | Beschreibung |
|---|---|
| Erklärte Varianz | Anteil der erhaltenen Information |
| Kumulative erklärte Varianz | Summe über Komponenten |
| Scree-Plot | Visualisierung des Varianzabfalls |
Wichtige Hyperparameter
n_components: Anzahl zu behaltender Komponenten (int oder float für Varianzanteil)svd_solver: Berechnungsmethode (‘auto’, ‘full’, ‘randomized’)
Schnellreferenz zur Modellauswahl
Das folgende Entscheidungsdiagramm hilft bei der Auswahl des passenden Algorithmus:
flowchart TD
START([Start]) --> Q1{Gibt es eine<br/>Zielvariable?}
Q1 -->|Ja| Q2{Zielvariable<br/>numerisch oder<br/>kategorial?}
Q1 -->|Nein| Q3{Was ist das<br/>Ziel?}
Q2 -->|Numerisch| REG[/"🎯 REGRESSION<br/>Linear Regression<br/>Decision Tree<br/>Random Forest<br/>XGBoost<br/>Neural Network"/]
Q2 -->|Kategorial| CLASS[/"🎯 KLASSIFIKATION<br/>Logistic Regression<br/>Decision Tree<br/>Random Forest<br/>XGBoost<br/>Neural Network"/]
Q3 -->|Gruppen finden| CLUST[/"🔍 CLUSTERING<br/>K-Means<br/>DBSCAN"/]
Q3 -->|Ausreißer finden| ANOM[/"🔍 ANOMALIE<br/>DBSCAN"/]
Q3 -->|Dimensionen<br/>reduzieren| DIM[/"🔍 DIMENSIONSRED.<br/>PCA<br/>LDA (wenn Labels)"/]
Q3 -->|Zusammenhänge<br/>finden| ASSOC[/"🔍 ASSOZIATION<br/>Apriori"/]
style START fill:#f9f9f9,stroke:#333
style REG fill:#c8e6c9,stroke:#2e7d32
style CLASS fill:#c8e6c9,stroke:#2e7d32
style CLUST fill:#bbdefb,stroke:#1565c0
style ANOM fill:#bbdefb,stroke:#1565c0
style DIM fill:#bbdefb,stroke:#1565c0
style ASSOC fill:#bbdefb,stroke:#1565c0
Abgrenzung zu verwandten Dokumenten
| Dokument | Frage |
|---|---|
| Modellauswahl | Wie wird die Auswahl eines Verfahrens systematisch begründet? |
| Regression | Welche Verfahren eignen sich speziell für numerische Zielgrößen? |
| Decision Tree | Wie funktioniert ein einzelnes, häufig genutztes Basismodell im Detail? |
| XGBoost | Wie sieht ein leistungsstarkes Boosting-Verfahren im Vergleich aus? |
Version: 1.0
Stand: Januar 2026
Kurs: Machine Learning. Verstehen. Anwenden. Gestalten.