Prepare

Systematische Datenaufbereitung und Preprocessing für Machine Learning Modelle.

Die wichtigsten Aspekte der Datenaufbereitung:

Data Cleaning - Bereinigung und Qualitätssicherung
Feature Engineering - Merkmalserstellung und -transformation
Data Transformation - Skalierung, Normalisierung, Encoding
Train-Test Split - Aufteilung in Trainings- und Testdaten

Data Cleaning

Bereinigung und Qualitätssicherung der Rohdaten.

Missing Values – Wie werden fehlende Werte erkannt und sinnvoll behandelt? SimpleImputer, KNNImputer und typische Strategien im Vergleich.

Outlier – Wie werden Ausreißer identifiziert und bereinigt? Z-Score, IQR und Isolation Forest als komplementäre Methoden.

Feature Engineering

Merkmalserstellung und -transformation zur Verbesserung der Modellperformance.

Feature Engineering – Wie werden aus Rohdaten informative Merkmale gewonnen? Feature Creation, Selection, Extraction und Domain Knowledge Integration.

Data Transformation

Skalierung, Normalisierung und Encoding für ML-Algorithmen.

Skalierung – Wann und wie werden Merkmale skaliert oder normalisiert? StandardScaler, MinMaxScaler und die Auswirkungen auf distanzbasierte Algorithmen.

Kodierung – Wie werden kategoriale Daten modellierbar gemacht? OrdinalEncoder, OneHotEncoder und TargetEncoder im Vergleich.

Train-Test Split

Aufteilung in Trainings- und Testdaten für zuverlässige Modellbewertung.

Train-Test-Split – Wie wird die Datentrennung zuverlässig und leckagefrei umgesetzt? Stratifizierung, Datenaufteilung und Vermeidung von Data Leakage.

Prepare

Data Cleaning

Feature Engineering

Data Transformation

Train-Test Split

Table of contents