Prepare
Systematische Datenaufbereitung und Preprocessing für Machine Learning Modelle.
Die wichtigsten Aspekte der Datenaufbereitung:
- Data Cleaning - Bereinigung und Qualitätssicherung
- Feature Engineering - Merkmalserstellung und -transformation
- Data Transformation - Skalierung, Normalisierung, Encoding
- Train-Test Split - Aufteilung in Trainings- und Testdaten
Data Cleaning
Bereinigung und Qualitätssicherung der Rohdaten.
Missing Values – Wie werden fehlende Werte erkannt und sinnvoll behandelt? SimpleImputer, KNNImputer und typische Strategien im Vergleich.
Outlier – Wie werden Ausreißer identifiziert und bereinigt? Z-Score, IQR und Isolation Forest als komplementäre Methoden.
Feature Engineering
Merkmalserstellung und -transformation zur Verbesserung der Modellperformance.
Feature Engineering – Wie werden aus Rohdaten informative Merkmale gewonnen? Feature Creation, Selection, Extraction und Domain Knowledge Integration.
Data Transformation
Skalierung, Normalisierung und Encoding für ML-Algorithmen.
Skalierung – Wann und wie werden Merkmale skaliert oder normalisiert? StandardScaler, MinMaxScaler und die Auswirkungen auf distanzbasierte Algorithmen.
Kodierung – Wie werden kategoriale Daten modellierbar gemacht? OrdinalEncoder, OneHotEncoder und TargetEncoder im Vergleich.
Train-Test Split
Aufteilung in Trainings- und Testdaten für zuverlässige Modellbewertung.
Train-Test-Split – Wie wird die Datentrennung zuverlässig und leckagefrei umgesetzt? Stratifizierung, Datenaufteilung und Vermeidung von Data Leakage.