PCA und LDA

Dimensionsreduktion ist eine Schlüsseltechnik im Machine Learning, um hochdimensionale Daten auf ihre wesentlichen Merkmale zu reduzieren. PCA und LDA sind zwei fundamentale Ansätze, die unterschiedliche Ziele verfolgen: PCA maximiert die Varianz, während LDA die Klassentrennung optimiert.

Inhaltsverzeichnis

Grundidee
Principal Component Analysis (PCA)
1. Funktionsweise
2. Eigenschaften von PCA
Linear Discriminant Analysis (LDA)
1. Funktionsweise
2. Eigenschaften von LDA
Vergleich: PCA vs. LDA
1. Gegenüberstellung
2. Visuelle Unterschiede
Wann welche Methode verwenden?
1. PCA empfohlen bei:
2. LDA empfohlen bei:
Zusammenfassung
Abgrenzung zu verwandten Dokumenten

Grundidee

Das Problem: Zu viele Informationen

Heutzutage werden enorme Datenmengen gesammelt. Für das Training von KI-Systemen ist das einerseits gut, da mehr Daten oft zu besseren Ergebnissen führen. Andererseits benötigen diese riesigen Mengen extrem viel Speicherplatz und Rechenzeit, was besonders bei Echtzeitanwendungen zum Problem wird.

Die Lösung: Dimensionsreduktion

Anstatt einfach Datenpunkte (Beispiele) zu löschen, verringert man bei der Dimensionsreduktion die Anzahl der Merkmale (Dimensionen). Es gibt zwei Wege, dies zu tun:

Merkmalsauswahl: Man pickt sich nur einen Teil der vorhandenen Merkmale heraus.
Merkmalsprojektion: Man rechnet alle Merkmale so um, dass sie durch weniger, neue Merkmale beschrieben werden können. Die PCA oder LDA gehört zu dieser zweiten Kategorie.

Wie funktioniert die PCA? (Das Schatten-Beispiel)

Das Prinzip der PCA lässt sich vereinfacht mit einem Schattenwurf erklären:

Ein dreidimensionaler Würfel, mit einer Taschenlampe angestrahlt, wirft einen zweidimensionalen Schatten auf den Boden.
Der Schatten ist eine Projektion des Würfels: Er hat weniger Dimensionen (2D statt 3D), zeigt aber immer noch die wesentlichen Eigenschaften des Objekts.
Die PCA sucht nun genau den Winkel („die beste Lichtquelle“), bei dem der Schatten die meiste Information des Originals beibehält. Mathematisch bedeutet das, dass die Varianz (die Streuung der Daten) im Schattenwurf maximal sein soll.

Hauptkomponenten und Nutzen

Hauptkomponenten: Dies sind die neuen Koordinatenachsen, auf die die Daten projiziert werden. Die erste Hauptkomponente zeigt immer in die Richtung der größten Streuung.
Vorteile: Neben der Ersparnis von Rechenzeit und Speicher kann die PCA auch dabei helfen, unerwünschtes Rauschen (Störsignale) in den Daten zu unterdrücken.
Risiko: Man muss vorsichtig sein. In manchen Fällen kann die Reduktion dazu führen, dass verschiedene Datenklassen (zum Beispiel unterschiedliche Pflanzentypen) so stark überlappen, dass man sie nach der PCA nicht mehr voneinander unterscheiden kann.

Zusammenfassend ist die PCA also eine Methode, um die Komplexität von Daten zu verringern, indem man sie auf ihre wichtigsten Bestandteile reduziert, ähnlich wie ein aussagekräftiger Schatten ein komplexes Objekt vereinfacht darstellt.

PCA - Eine Methode zur Dimensionsreduktion » Lamarr-Institut

Principal Component Analysis (PCA)

Die Hauptkomponentenanalyse (PCA) ist die am häufigsten verwendete Methode zur Dimensionsreduktion. Sie projiziert Datenpunkte in einen Unterraum mit weniger Dimensionen, wobei die Varianz der Daten maximiert wird.

Funktionsweise

flowchart TD
    A["Originaldaten<br/>(n Dimensionen)"] --> B["Kovarianzmatrix<br/>berechnen"]
    B --> C["Eigenwerte &<br/>Eigenvektoren"]
    C --> D["Hauptkomponenten<br/>auswählen"]
    D --> E["Daten auf neue<br/>Achsen projizieren"]
    E --> F["Reduzierte Daten<br/>(k Dimensionen)"]
    
    style A fill:#ffcdd2,stroke:#d32f2f
    style F fill:#c8e6c9,stroke:#388e3c

Schrittweise Erklärung:

Varianzmaximierung: Der Unterraum wird so gewählt, dass die Varianz der projizierten Datenpunkte maximal ist
Erste Hauptkomponente: Eine Gerade durch die Daten, welche die Varianz der orthogonal projizierten Punkte maximiert
Weitere Komponenten: Jede zusätzliche Achse steht senkrecht zur vorherigen und erklärt die verbleibende Varianz

Eigenschaften von PCA

Eigenschaft	Beschreibung
Lerntyp	Unüberwacht (keine Labels erforderlich)
Ziel	Maximierung der Gesamtvarianz
Interpretierbarkeit	Neue Achsen sind interpretierbar
Anwendung	Datenkompression, Visualisierung, Rauschreduktion

Beispiel Use Case “Cancer”: siehe b240_ul_pca_special.ipynb

Linear Discriminant Analysis (LDA)

Die Lineare Diskriminanzanalyse (LDA) ist eine überwachte Methode zur Dimensionsreduktion. Im Gegensatz zu PCA nutzt LDA die Klasseninformationen, um eine optimale Trennung zwischen den Klassen zu finden.

Funktionsweise

flowchart TD
    A["Daten mit<br/>Klassenlabels"] --> B["Berechne Varianz<br/>ZWISCHEN Klassen"]
    A --> C["Berechne Varianz<br/>INNERHALB Klassen"]
    B --> D["Maximiere<br/>Zwischen/Innerhalb"]
    C --> D
    D --> E["Optimale<br/>Trennachse"]
    E --> F["Projizierte<br/>Daten"]
    
    style A fill:#e1bee7,stroke:#7b1fa2
    style F fill:#c8e6c9,stroke:#388e3c

Kernidee: LDA sucht nach linearen Kombinationen der Merkmale, die:

Die Varianz zwischen den Klassen maximieren
Die Varianz innerhalb jeder Klasse minimieren

Eigenschaften von LDA

Eigenschaft	Beschreibung
Lerntyp	Überwacht (Labels erforderlich)
Ziel	Maximierung der Klassentrennung
Max. Komponenten	Anzahl Klassen - 1
Anwendung	Klassifikation, Vorverarbeitung

Vergleich: PCA vs. LDA

Die Wahl zwischen PCA und LDA hängt vom Anwendungsfall und den verfügbaren Daten ab.

flowchart TD
    START["Dimensionsreduktion<br/>benötigt"] --> Q1{"Labels<br/>vorhanden?"}
    
    Q1 -->|Nein| PCA["✅ PCA verwenden"]
    Q1 -->|Ja| Q2{"Ziel?"}
    
    Q2 -->|"Klassifikation<br/>optimieren"| LDA["✅ LDA verwenden"]
    Q2 -->|"Allgemeine<br/>Kompression"| Q3{"Klassenverteilung<br/>balanciert?"}
    
    Q3 -->|Ja| BOTH["PCA oder LDA<br/>ausprobieren"]
    Q3 -->|Nein| PCA2["✅ PCA bevorzugen"]
    
    style PCA fill:#c8e6c9,stroke:#388e3c
    style LDA fill:#bbdefb,stroke:#1976d2
    style PCA2 fill:#c8e6c9,stroke:#388e3c
    style BOTH fill:#fff3e0,stroke:#f57c00

Gegenüberstellung

Kriterium	PCA	LDA
Lerntyp	Unüberwacht	Überwacht
Ziel	Maximierung der Gesamtvarianz	Maximierung der Klassentrennung
Labels erforderlich	❌ Nein	✅ Ja
Max. Komponenten	min(n_samples, n_features)	n_classes - 1
Overfitting-Risiko	Gering	Höher (bei wenig Daten)
Interpretierbarkeit	Hoch	Moderat
Typische Anwendung	Datenkompression, Visualisierung	Klassifikation, Vorverarbeitung

Visuelle Unterschiede

flowchart LR
    subgraph pca_result["PCA Ergebnis"]
        direction TB
        P1["Maximiert<br/>Gesamtvarianz"]
        P2["Klassen können<br/>überlappen"]
    end
    
    subgraph lda_result["LDA Ergebnis"]
        direction TB
        L1["Maximiert<br/>Klassentrennung"]
        L2["Klassen optimal<br/>separiert"]
    end
    
    style pca_result fill:#e8f5e9,stroke:#388e3c
    style lda_result fill:#e3f2fd,stroke:#1976d2

Wann welche Methode verwenden?

PCA empfohlen bei:

Keine Klassenlabels vorhanden
Ziel ist allgemeine Datenkompression
Visualisierung hochdimensionaler Daten
Rauschreduktion gewünscht
Vorverarbeitung für unüberwachtes Lernen

LDA empfohlen bei:

Klassenlabels verfügbar
Nachfolgende Klassifikationsaufgabe
Klassen sollen optimal getrennt werden
Wenige Klassen im Verhältnis zu Features
Klassenverteilung einigermaßen balanciert

Best Practice

In der Praxis werden PCA und LDA oft kombiniert: Zuerst reduziert PCA die Dimensionen auf ein handhabbares Maß, dann optimiert LDA die Klassentrennung in diesem reduzierten Raum.

Zusammenfassung

mindmap
  root((Dimensionsreduktion))
    PCA
      Unüberwacht
      Maximiert Varianz
      Keine Labels nötig
      Datenkompression
    LDA
      Überwacht
      Maximiert Klassentrennung
      Labels erforderlich
      Klassifikation
    Gemeinsamkeiten
      Lineare Projektion
      Reduzieren Dimensionen
      Interpretierbare Komponenten

Aspekt	PCA	LDA
Kernfrage	“Welche Richtung erklärt die meiste Variation?”	“Welche Richtung trennt die Klassen am besten?”
Stärke	Universell einsetzbar	Optimal für Klassifikation
Schwäche	Ignoriert Klassenzugehörigkeit	Braucht Labels, max. k-1 Komponenten

Abgrenzung zu verwandten Dokumenten

Dokument	Frage
Modellauswahl	Wann ist Dimensionsreduktion sinnvoller als ein direktes Modell?
K-Means und DBSCAN	Wie wird mit reduzierten Daten später gruppiert oder segmentiert?
Feature Engineering	Wie unterscheiden sich erzeugte Features von reduzierten Komponenten?
Bewertung Clustering	Wie wird geprüft, ob eine reduzierte Darstellung die Gruppenbildung verbessert?

Version: 1.0
Stand: Januar 2026
Kurs: Machine Learning. Verstehen. Anwenden. Gestalten.