Modellauswahl

[!NOTE] Kernfrage
Welches Modell passt zur Aufgabe, zum Risiko, zum Budget und zur Latenzanforderung?

Inhaltsverzeichnis

Modellrollen im Kurs
OpenAI-Default und Designregeln
1. Entscheidungsregeln
Entscheidungsbaum
Provider-Mapping
Modellauswahlprozess: Schritt für Schritt
Modellkaskade: Mehrere Modelle klug kombinieren
1. Beispiel für eine Modellkaskade
2. Vorteile einer Modellkaskade
Bewertungsmethoden für KI-Modelle
Praktische Anwendungsbereiche
Was für Entwickler zuerst wichtig ist
Abgrenzung zu verwandten Dokumenten

Modellrollen im Kurs

Die Kursunterlagen verwenden keine freie Modellrangliste, sondern eine rollenbasierte Konfiguration in genai_lib.model_config.py. Dort ist festgelegt, welches Modell für einfache Demos, Worker, Planung, Bewertung, Übersetzung und Embeddings verwendet wird.

Typischer Fehler: Das stärkste verfügbare Modell wird als Standard gewählt. Für viele Agentenschritte sind Kosten, Latenz, Tool-Zuverlässigkeit oder strukturierte Ausgabe wichtiger als maximale Benchmark-Leistung.

Kursrolle	Konstante	Modell	Einsatz
Baseline / Demo	`BASELINE`	`openai:gpt-5.4-nano`	einfache Beispiele, erste Läufe, Kostenkontrolle
Router / leichter Reasoner	`ROUTER`	`openai:gpt-5.4-nano`	klare Auswahlentscheidungen mit wenigen Wegen
Worker / Synthese	`WORKER`	`openai:gpt-5.4-mini`	RAG-Synthese, strukturierte Ausgaben, Standard-Worker
Coding-Worker	`CODING`	`openai:gpt-5.4-mini`	Codegenerierung, Refactoring, technische Agenten
Judge / starker Reasoner	`JUDGE`	`openai:gpt-5.4`	Bewertung, Evaluation, Supervisor, Compliance
Planner	`PLANNER`	`openai:gpt-5.4`	Aufgabenzerlegung, Schrittplanung, Agentic RAG
Hochwertiger Worker	`WORKER_PREMIUM`	`openai:gpt-5.4`	komplexe Synthese, finale Reports
Premium Judge / Planner	`JUDGE_PREMIUM`, `PLANNER_PREMIUM`	`openai:gpt-5.5`	kritische Entscheidungen, maximale Qualität
Übersetzung	`TRANSLATOR_FAST`, `TRANSLATOR`, `TRANSLATOR_PREMIUM`	`openai:gpt-5.4-nano`, `openai:gpt-5.4-mini`, `openai:gpt-5.5`	Rohübersetzung, Kursmaterial, finale Veröffentlichung
Embeddings	`EMBEDDINGS`	`text-embedding-3-small`	Retrieval, Chunk-Suche, Vektorindizes

Diese Rollen machen Modellwahl im Kurs überprüfbar. Entwickler vergleichen nicht beliebige Modellnamen, sondern entscheiden, ob ein Schritt Baseline, Worker, Planner oder Judge ist.

[!IMPORTANT] GPT-5.x-Konfiguration
Modelle der GPT-5.x-Serie werden in den Kursmaterialien nicht pauschal mit temperature konfiguriert. Qualitätssteuerung erfolgt über präzise Prompts sowie bei Bedarf über reasoning.effort und text.verbosity.

OpenAI-Default und Designregeln

Der Kurs nutzt konkrete OpenAI-Modelle, aber die Entscheidung dahinter bleibt rollenbasiert. Wichtig ist nicht zuerst der Produktname, sondern die Aufgabe des Knotens.

Situation	Kurs-Default	Begründung
Grundlagen, Demos, einfache Klassifikation	`gpt-5.4-nano`	schnell, günstig, ausreichend für klare Aufgaben
einfaches Routing	`gpt-5.4-nano`	gute Kosten-/Latenz-Balance bei wenigen Routen
Worker, Synthese, strukturierte Ausgabe	`gpt-5.4-mini`	Standardmodell für produktivere Arbeitsschritte
Coding-Worker	`gpt-5.4-mini`	geeignet für Code, Refactoring und technische Aufgaben
Supervisor, Judge, Planner	`gpt-5.4`	stärkeres Reasoning für Entscheidungen mit Folgewirkung
kritische Entscheidung oder finale Bewertung	`gpt-5.5`	Premium-Option bei hohen Qualitäts- oder Sicherheitsanforderungen

Entscheidungsregeln

Baseline zuerst: Mit einem günstigen Standardmodell starten und erst bei messbarem Bedarf upgraden.
Rolle vor Modell: Erst klären, ob ein Knoten Router, Worker, Judge oder Planner ist.
Fehlerkosten beachten: Je teurer eine Fehlentscheidung wird, desto eher lohnt sich ein stärkeres Modell.
Tool- und JSON-Verhalten prüfen: Für Agenten zählt nicht nur Textqualität, sondern auch stabiler Tool Use und strukturierte Ausgabe.
Kosten und Latenz sichtbar machen: Modellwahl ist Teil der Architektur, nicht nur Qualitätsoptimierung.

Entscheidungsbaum

flowchart TD
    START(["Welche Rolle hat der Knoten?"])
    START --> R{"Routing oder Supervisor?"}
    START --> J{"Judge oder Evaluation?"}
    START --> W{"Worker, Code oder Synthese?"}
    START --> D{"Demo oder Grundlagen?"}

    R -->|einfach| ROUTER["gpt-5.4-nano"]
    R -->|kritisch| SUP["gpt-5.4"]
    J --> JUDGE["gpt-5.4 oder gpt-5.5"]
    W --> WORKER["gpt-5.4-mini"]
    D --> BASE["gpt-5.4-nano"]

Provider-Mapping

Für providerneutrale Architekturentscheidungen bleibt die Rollenlogik erhalten. Der Providerwechsel ist dann eine Zuordnung von Rollen auf passende Modellfamilien.

Rolle	OpenAI	Mistral	Gemini	Anthropic
Baseline / Demo	`gpt-5.4-nano`	`mistral-small-latest`	`gemini-3-flash-preview`	`claude-haiku-4-5`
Router / leichter Reasoner	`gpt-5.4-nano`	`mistral-small-latest`	`gemini-3-flash-preview`	`claude-haiku-4-5`
Judge / starker Reasoner	`gpt-5.4`	`magistral-medium-latest` oder `mistral-large-latest`	`gemini-3.1-pro-preview`	`claude-opus-4-6`
Worker / Synthese	`gpt-5.4-mini`	`mistral-medium-latest` oder `mistral-large-latest`	`gemini-3.1-pro-preview`	`claude-sonnet-4-6`
Coding-Worker	`gpt-5.4-mini`	`devstral-latest` oder `codestral-latest`	`gemini-3.1-pro-preview`	`claude-sonnet-4-6`
Embeddings	`text-embedding-3-small`	`mistral-embed`	`gemini-embedding-2-preview`	externer Provider nötig

[!NOTE] Provider-Mapping ist Planung, keine automatische Migration
Ein anderes Chat-Modell ersetzt nicht automatisch Embeddings, Logging, Kostenmodell oder API-spezifische Parameter.

Modellauswahlprozess: Schritt für Schritt

Die Auswahl des optimalen KI-Modells erfordert einen strukturierten Prozess:

flowchart LR
    A[1. Anforderungs-<br>analyse] --> B[2. Bewertungs-<br>kriterien]
    B --> C[3. Recherche &<br>Vorauswahl]
    C --> D[4. Praktische<br>Bewertung]
    D --> E[5. Finale Auswahl &<br>Implementierung]

    A1[Aufgaben<br>Budget<br>Qualität] -.-> A
    B1[Effizienz<br>Kosten<br>Skalierbarkeit] -.-> B
    C1[Modelle<br>filtern] -.-> C
    D1[Benchmarks<br>Tests] -.-> D
    E1[Integration<br>Deployment] -.-> E

    style A fill:#e3f2fd,stroke:#1976d2
    style B fill:#fff3e0,stroke:#ff9800
    style C fill:#f3e5f5,stroke:#9c27b0
    style D fill:#e0f7fa,stroke:#00bcd4
    style E fill:#c8e6c9,stroke:#388e3c

Anforderungsanalyse

Definition der Aufgaben: Festlegen, welche spezifischen Funktionen das Modell erfüllen soll (z. B. Textgenerierung, Fragebeantwortung).
Qualitätskriterien: Bestimmen, welche Qualitätsstandards (Kohärenz, Genauigkeit) erfüllt werden müssen.
Domänenkenntnisse: Identifizieren, welches Fachwissen für die Aufgabe notwendig ist.
Antwortgeschwindigkeit: Definieren, welche Reaktionszeit akzeptabel ist.
Budget: Einen finanziellen Rahmen für die KI-Lösung setzen.

Bewertungskriterien

Verständlichkeit: Wie klar und nachvollziehbar sind die Modellausgaben?
Effizienz: Wie schnell verarbeitet das Modell Eingaben und liefert Ausgaben?
Skalierbarkeit: Kann das Modell mit steigenden Anforderungen mitwachsen?
Kosten: Wie hoch sind die Betriebs- und Nutzungskosten des Modells?

Recherche und Vorauswahl

Verfügbare Modelle anhand der festgelegten Kriterien analysieren und eine Vorauswahl geeigneter Kandidaten bilden.

Praktische Modellbewertung

Quantitative Methoden: Benchmarks und Metriken verwenden, um die Leistung objektiv zu messen.
Qualitative Verfahren: Nutzerfeedback zur praktischen Verwendbarkeit sammeln.
Testphase: Die Modelle in einer realistischen Umgebung erproben.

Finale Auswahl und Implementierung

Eine begründete Entscheidung für das am besten geeignete Modell treffen und es in die eigenen Systeme integrieren.

Interaktive Modellauswahl

Modellkaskade: Mehrere Modelle klug kombinieren

Die Modellkaskade kombiniert mehrere KI-Modelle, um ihre jeweiligen Stärken zu nutzen und Schwächen auszugleichen:

Beispiel für eine Modellkaskade

Datenanalyse mit pandas: Analysiert große Datensätze und erstellt statistische Zusammenfassungen
Planung mit PLANNER: Strukturiert die Ergebnisse und erstellt eine logische Gliederung
Synthese mit WORKER oder WORKER_PREMIUM: Verfasst den Ergebnistext auf Basis der Struktur
Multimodale Präsentation: Ergänzt den Text mit visuellen Elementen

Vorteile einer Modellkaskade

Effizienzsteigerung: Jedes Modell wird für seine Stärken optimal eingesetzt
Kostenoptimierung: Ressourcenschonende Modelle für einfache Aufgaben, teurere nur wo nötig
Flexibilität: Bearbeitung unterschiedlichster Anforderungen durch spezialisierte Modelle

Bewertungsmethoden für KI-Modelle

Benchmarks richtig einordnen

Öffentliche Benchmarks wie MMLU können eine erste Orientierung geben, ersetzen aber keine Kursevaluation. Für Agentensysteme ist entscheidend, ob ein Modell die konkrete Rolle zuverlässig erfüllt: Routing, Tool-Aufruf, Planung, Synthese oder Bewertung. Ein hoher allgemeiner Benchmark-Wert hilft wenig, wenn strukturierte Ausgabe instabil ist oder ein Router zu teuer und zu langsam wird.

Grenze: Statische Benchmark-Tabellen altern schnell. In Kursunterlagen werden deshalb keine konkreten Ranglisten gepflegt; die praktische Bewertung erfolgt anhand der Rollen aus model_config.py.

Bewertungsdimensionen

Die Bewertung von KI-Modellen umfasst verschiedene Aspekte:

Rollenqualität: Erfüllt das Modell die konkrete Aufgabe, etwa Routing, Planung, Synthese oder Bewertung?
Werkzeugverhalten: Nutzt das Modell externe Tools zuverlässig und mit stabilen Argumenten?
Ausgabeformat: Hält das Modell JSON, Tabellen, Checklisten oder andere Strukturvorgaben ein?
Sicherheit: Bleibt das Modell bei Störungen, Injection-Versuchen und unklaren Anforderungen kontrollierbar?
Kosten und Latenz: Passt das Modell zur erwarteten Nutzungshäufigkeit?

Konkrete Bewertungsmethoden

Automatisierte Metriken

BLEU: Misst die Übereinstimmung zwischen generiertem und Referenztext durch Vergleich von Wortgruppen.
ROUGE: Bewertet die Qualität von Zusammenfassungen durch Analyse übereinstimmender Wortsequenzen.

Menschliche Bewertung

Bewertung nach Kriterien wie Grammatik, Zusammenhang, Lesbarkeit und Relevanz
Elo-System für den direkten Vergleich verschiedener Modelle (ähnlich wie bei Schach-Ratings)

KI-basierte Bewertung

Einsatz von JUDGE oder JUDGE_PREMIUM zur Bewertung anderer Modellrollen
Automatische Erkennung von Fehlinformationen in KI-Antworten

Praktische Anwendungsbereiche

Die Modellevaluierung und -auswahl findet in verschiedenen Szenarien Anwendung:

Kundenservice-Chatbots

Auswahl einer schnellen Baseline- oder Worker-Rolle mit guter Verständlichkeit und Mehrsprachigkeit
Bewertung nach Kundenzufriedenheit und Lösungsrate

Content-Erstellung

Nutzung einer passenden Worker-Rolle für Marketing, Social Media und Blogbeiträge
Bewertung nach Originalität, Engagement und Konversionsraten

Technische Assistenz

Einsatz von CODING, PLANNER oder JUDGE für Programmierung, Planung und Fehlerbewertung
Bewertung nach Codequalität und Lösungsgeschwindigkeit

Was für Entwickler zuerst wichtig ist

Modellauswahl ist keine Rangliste, sondern eine Architekturentscheidung. Ein günstiges Modell kann für Routing, Klassifikation oder einfache Tool-Auswahl besser passen als ein großes Reasoning-Modell; ein stärkeres Modell lohnt sich vor allem dort, wo Fehler teuer sind oder mehrere Teilschritte wirklich verstanden werden müssen.

In der Praxis relevant, wenn: Ein Agent mehrere Rollen kombiniert. Dann sollte nicht ein einziges Modell alles erledigen, sondern jede Rolle nach Qualitätsbedarf, Kosten und Latenz bewertet werden.

Abgrenzung zu verwandten Dokumenten

Dokument	Frage
Fine-Tuning	Wann reicht Modellwahl nicht mehr und Training wird notwendig?
Context Engineering	Welche Kontextstrategie entscheidet mit darüber, ob ein Modell genügt?
Qualität und Sicherheit	Wie werden Modellqualität, Tracing und Evaluation sichtbar gemacht?

Version: 1.3
Stand: Mai 2026
Kurs: KI-Agenten. Verstehen. Anwenden. Gestalten.