Ensemble-Methoden

Ensemble-Learning kombiniert mehrere Machine-Learning-Modelle, um bessere Vorhersagen zu erzielen als einzelne Modelle. Die wichtigsten Strategien sind Bagging (parallele, homogene Modelle), Boosting (sequentielle, homogene Modelle) und Stacking (parallele, heterogene Modelle).

Inhaltsverzeichnis

Übersicht der Ensemble-Strategien
Bagging (Bootstrap Aggregating)
1. Funktionsweise
Random Forest
1. Besonderheiten
2. Vorteile von Random Forest
Boosting
1. Funktionsweise
2. Vergleich: Bagging vs. Boosting
Zusammenfassung
Abgrenzung zu verwandten Dokumenten

Übersicht der Ensemble-Strategien

Ensemble-Methoden nutzen die “Weisheit der Vielen” – die Kombination mehrerer Modelle führt oft zu besseren und robusteren Ergebnissen als jedes einzelne Modell.

flowchart TD
    subgraph Ensemble["<b>Ensemble-Methoden"]
        direction TB
        
        subgraph Bagging["<b>Bagging"]
            B1["Homogene Modelle"]
            B2["Paralleles Training"]
        end
        
        subgraph Boosting["<b>Boosting"]
            BO1["Homogene Modelle"]
            BO2["Sequentielles Training"]
        end
        
        subgraph Stacking["<b>Stacking"]
            S1["Heterogene Modelle"]
            S2["Paralleles Training"]
            S3["Voting"]
            S4["Meta-Learning"]
        end
    end
    
    style Bagging fill:#e8f5e9,stroke:#4caf50
    style Boosting fill:#e3f2fd,stroke:#2196f3
    style Stacking fill:#fff3e0,stroke:#ff9800

Strategie	Modelltyp	Training	Beispiele
Bagging	Homogen	Parallel	Random Forest
Boosting	Homogen	Sequentiell	XGBoost, AdaBoost
Stacking	Heterogen	Parallel	Voting, Meta-Learning

Bagging (Bootstrap Aggregating)

Beim Bagging werden mehrere gleichartige Modelle parallel trainiert und deren Vorhersagen kombiniert. Der Name steht für “Bootstrap Aggregating”.

Funktionsweise

flowchart LR
    D[("Originaldaten")] --> S1["Stichprobe 1"]
    D --> S2["Stichprobe 2"]
    D --> S3["Stichprobe 3"]
    D --> SN["..."]
    
    S1 --> M1["Modell 1"]
    S2 --> M2["Modell 2"]
    S3 --> M3["Modell 3"]
    SN --> MN["Modell N"]
    
    M1 --> AAggregation
    M2 --> A
    M3 --> A
    MN --> A
    
    A --> P["Finale Vorhersage"]
    
    style D fill:#e3f2fd,stroke:#1976d2
    style A fill:#fff9c4,stroke:#fbc02d
    style P fill:#c8e6c9,stroke:#388e3c

Die drei Schritte des Bagging:

Bootstrap-Sampling: Es werden zufällige Stichproben aus den Daten gezogen (mit Zurücklegen)
Paralleles Training: Jedes Modell wird unabhängig auf seiner Stichprobe trainiert
Aggregation: Die Vorhersagen werden kombiniert:
- Klassifikation: Mehrheitsentscheidung (Voting)
- Regression: Mittelwert oder Median

Vorteile

Reduziert Overfitting durch Varianzreduktion

Modelle können parallel trainiert werden

Robust gegenüber Ausreißern in einzelnen Stichproben

Random Forest

Random Forest ist die bekannteste Bagging-Methode und besteht aus einem Ensemble von Entscheidungsbäumen.

Besonderheiten

Random Forest erweitert das klassische Bagging um eine zusätzliche Zufallskomponente:

flowchart TD
    subgraph RF["Random Forest Prinzip"]
        D[("Datensatz")] --> B1["Bootstrap<br>Stichprobe 1"]
        D --> B2["Bootstrap<br>Stichprobe 2"]
        D --> BN["Bootstrap<br>Stichprobe N"]

        B1 --> T1["Baum 1<br>Zufällige Features"]
        B2 --> T2["Baum 2<br>Zufällige Features"]
        BN --> TN["Baum N<br>Zufällige Features"]

        T1 --> V1["Vorhersage 1"]
        T2 --> V2["Vorhersage 2"]
        TN --> VN["Vorhersage N"]

        V1 --> AGGAggregation
        V2 --> AGG
        VN --> AGG

        AGG --> FINAL["Finale Vorhersage"]
    end

    style D fill:#e8f5e9,stroke:#4caf50
    style AGG fill:#fff9c4,stroke:#fbc02d
    style FINAL fill:#c8e6c9,stroke:#388e3c

Was Random Forest “zufällig” macht:

Komponente	Zufälligkeit
Datensätze	Jeder Baum erhält eine andere Bootstrap-Stichprobe
Features	An jedem Knoten wird nur eine zufällige Teilmenge der Features für den Split betrachtet
Splits	Die Auswahl des besten Splits erfolgt nur aus den zufällig gewählten Features

Vorteile von Random Forest

Kann sowohl für Klassifikation als auch Regression verwendet werden
Funktioniert mit kategorialen und numerischen Features
Liefert automatisch Feature Importance
Robust gegenüber Overfitting
Benötigt wenig Hyperparameter-Tuning

Boosting

Beim Boosting werden Modelle sequentiell trainiert, wobei jedes neue Modell versucht, die Fehler der vorherigen Modelle zu korrigieren.

Funktionsweise

flowchart LR
    subgraph Seq["Sequentielles Lernen"]
        D[("Daten")] --> M1["Modell 1"]
        M1 --> E1["Fehler<br>analysieren"]
        E1 --> |"Gewichtung<br>anpassen"| M2["Modell 2"]
        M2 --> E2["Fehler<br>analysieren"]
        E2 --> |"Gewichtung<br>anpassen"| M3["Modell 3"]
        M3 --> EN["..."]
    end
    
    M1 --> KKombination
    M2 --> K
    M3 --> K
    
    K --> P["Finale<br>Vorhersage"]
    
    style D fill:#e3f2fd,stroke:#1976d2
    style K fill:#fff9c4,stroke:#fbc02d
    style P fill:#c8e6c9,stroke:#388e3c

Das Boosting-Prinzip:

Erstes Modell macht erste Vorhersagen (oft noch ungenau)
Fehleranalyse: Falsch klassifizierte Datenpunkte werden identifiziert
Gewichtung: Schwer zu klassifizierende Muster erhalten höhere Gewichte
Nächstes Modell fokussiert sich auf die schwierigen Fälle
Finale Vorhersage kombiniert alle Modellbeiträge

Kernidee

Muster, die noch nicht gut klassifiziert werden, bekommen im nächsten Durchlauf ein höheres Gewicht. Bereits erkannte Muster bekommen ein geringeres Gewicht. So spezialisiert sich jedes neue Modell auf die verbleibenden Fehler.

Vergleich: Bagging vs. Boosting

Aspekt	Bagging	Boosting
Training	Parallel	Sequentiell
Fokus	Varianzreduktion	Bias-Reduktion
Fehlerbehandlung	Gleichmäßig	Gewichtet (schwierige Fälle)
Overfitting-Risiko	Geringer	Höher (aber kontrollierbar)
Rechenzeit	Parallelisierbar	Nicht parallelisierbar

Zusammenfassung

mindmap
  root((Ensemble))
    Bagging
      Parallel
      Bootstrap-Samples
      Random Forest
      Varianzreduktion
    Boosting
      Sequentiell
      Fehlergewichtung
      XGBoost
      Bias-Reduktion
    Stacking
      Heterogen
      Voting
      Meta-Learning

Die wichtigsten Erkenntnisse:

Ensemble-Methoden kombinieren mehrere Modelle für bessere Vorhersagen
Bagging (z.B. Random Forest) reduziert Varianz durch parallele, unabhängige Modelle
Boosting (z.B. XGBoost) reduziert Bias durch sequentielles Lernen aus Fehlern
Stacking kombiniert verschiedenartige Modelle durch Voting oder Meta-Learning
Die Wahl der Methode hängt vom Problem und den verfügbaren Ressourcen ab
Abgrenzung zu verwandten Dokumenten

Thema	Abgrenzung
Random Forest	Random Forest ist konkrete Bagging-Implementierung; Ensemble-Methoden beschreiben alle Kombinationsstrategien
XGBoost	Ensemble-Methoden praesentieren Strategien uebergreifend; XGBoost spezialisiert die Boosting-Strategie
Stacking	Bagging und Boosting kombinieren identische Modelltypen; Stacking kombiniert verschiedenartige Modelle

Version: 1.0
Stand: Januar 2026
Kurs: Machine Learning. Verstehen. Anwenden. Gestalten.

Ensemble-Methoden

Inhaltsverzeichnis

Übersicht der Ensemble-Strategien

Bagging (Bootstrap Aggregating)

Funktionsweise

Random Forest

Besonderheiten

Vorteile von Random Forest

Boosting

Funktionsweise

Vergleich: Bagging vs. Boosting

Zusammenfassung

Abgrenzung zu verwandten Dokumenten