Prepare

Systematische Datenaufbereitung und Preprocessing für Machine Learning Modelle.

Die wichtigsten Aspekte der Datenaufbereitung:

  • Data Cleaning - Bereinigung und Qualitätssicherung
  • Feature Engineering - Merkmalserstellung und -transformation
  • Data Transformation - Skalierung, Normalisierung, Encoding
  • Train-Test Split - Aufteilung in Trainings- und Testdaten

Data Cleaning

Bereinigung und Qualitätssicherung der Rohdaten.

Missing ValuesWie werden fehlende Werte erkannt und sinnvoll behandelt? SimpleImputer, KNNImputer und typische Strategien im Vergleich.

OutlierWie werden Ausreißer identifiziert und bereinigt? Z-Score, IQR und Isolation Forest als komplementäre Methoden.

Feature Engineering

Merkmalserstellung und -transformation zur Verbesserung der Modellperformance.

Feature EngineeringWie werden aus Rohdaten informative Merkmale gewonnen? Feature Creation, Selection, Extraction und Domain Knowledge Integration.

Data Transformation

Skalierung, Normalisierung und Encoding für ML-Algorithmen.

SkalierungWann und wie werden Merkmale skaliert oder normalisiert? StandardScaler, MinMaxScaler und die Auswirkungen auf distanzbasierte Algorithmen.

KodierungWie werden kategoriale Daten modellierbar gemacht? OrdinalEncoder, OneHotEncoder und TargetEncoder im Vergleich.

Train-Test Split

Aufteilung in Trainings- und Testdaten für zuverlässige Modellbewertung.

Train-Test-SplitWie wird die Datentrennung zuverlässig und leckagefrei umgesetzt? Stratifizierung, Datenaufteilung und Vermeidung von Data Leakage.


Table of contents