Modellauswahl
[!NOTE] Kernfrage
Welches Modell passt zur Aufgabe, zum Risiko, zum Budget und zur Latenzanforderung?
Inhaltsverzeichnis
- Modellrollen im Kurs
- OpenAI-Default und Designregeln
- Entscheidungsbaum
- Provider-Mapping
- Modellauswahlprozess: Schritt für Schritt
- Modellkaskade: Mehrere Modelle klug kombinieren
- Bewertungsmethoden für KI-Modelle
- Praktische Anwendungsbereiche
- Was für Entwickler zuerst wichtig ist
- Abgrenzung zu verwandten Dokumenten
Modellrollen im Kurs
Die Kursunterlagen verwenden keine freie Modellrangliste, sondern eine rollenbasierte Konfiguration in genai_lib.model_config.py. Dort ist festgelegt, welches Modell für einfache Demos, Worker, Planung, Bewertung, Übersetzung und Embeddings verwendet wird.
Typischer Fehler: Das stärkste verfügbare Modell wird als Standard gewählt. Für viele Agentenschritte sind Kosten, Latenz, Tool-Zuverlässigkeit oder strukturierte Ausgabe wichtiger als maximale Benchmark-Leistung.
| Kursrolle | Konstante | Modell | Einsatz |
|---|---|---|---|
| Baseline / Demo | BASELINE | openai:gpt-5.4-nano | einfache Beispiele, erste Läufe, Kostenkontrolle |
| Router / leichter Reasoner | ROUTER | openai:gpt-5.4-nano | klare Auswahlentscheidungen mit wenigen Wegen |
| Worker / Synthese | WORKER | openai:gpt-5.4-mini | RAG-Synthese, strukturierte Ausgaben, Standard-Worker |
| Coding-Worker | CODING | openai:gpt-5.4-mini | Codegenerierung, Refactoring, technische Agenten |
| Judge / starker Reasoner | JUDGE | openai:gpt-5.4 | Bewertung, Evaluation, Supervisor, Compliance |
| Planner | PLANNER | openai:gpt-5.4 | Aufgabenzerlegung, Schrittplanung, Agentic RAG |
| Hochwertiger Worker | WORKER_PREMIUM | openai:gpt-5.4 | komplexe Synthese, finale Reports |
| Premium Judge / Planner | JUDGE_PREMIUM, PLANNER_PREMIUM | openai:gpt-5.5 | kritische Entscheidungen, maximale Qualität |
| Übersetzung | TRANSLATOR_FAST, TRANSLATOR, TRANSLATOR_PREMIUM | openai:gpt-5.4-nano, openai:gpt-5.4-mini, openai:gpt-5.5 | Rohübersetzung, Kursmaterial, finale Veröffentlichung |
| Embeddings | EMBEDDINGS | text-embedding-3-small | Retrieval, Chunk-Suche, Vektorindizes |
Diese Rollen machen Modellwahl im Kurs überprüfbar. Entwickler vergleichen nicht beliebige Modellnamen, sondern entscheiden, ob ein Schritt Baseline, Worker, Planner oder Judge ist.
[!IMPORTANT] GPT-5.x-Konfiguration
Modelle der GPT-5.x-Serie werden in den Kursmaterialien nicht pauschal mittemperaturekonfiguriert. Qualitätssteuerung erfolgt über präzise Prompts sowie bei Bedarf überreasoning.effortundtext.verbosity.
OpenAI-Default und Designregeln
Der Kurs nutzt konkrete OpenAI-Modelle, aber die Entscheidung dahinter bleibt rollenbasiert. Wichtig ist nicht zuerst der Produktname, sondern die Aufgabe des Knotens.
| Situation | Kurs-Default | Begründung |
|---|---|---|
| Grundlagen, Demos, einfache Klassifikation | gpt-5.4-nano | schnell, günstig, ausreichend für klare Aufgaben |
| einfaches Routing | gpt-5.4-nano | gute Kosten-/Latenz-Balance bei wenigen Routen |
| Worker, Synthese, strukturierte Ausgabe | gpt-5.4-mini | Standardmodell für produktivere Arbeitsschritte |
| Coding-Worker | gpt-5.4-mini | geeignet für Code, Refactoring und technische Aufgaben |
| Supervisor, Judge, Planner | gpt-5.4 | stärkeres Reasoning für Entscheidungen mit Folgewirkung |
| kritische Entscheidung oder finale Bewertung | gpt-5.5 | Premium-Option bei hohen Qualitäts- oder Sicherheitsanforderungen |
Entscheidungsregeln
- Baseline zuerst: Mit einem günstigen Standardmodell starten und erst bei messbarem Bedarf upgraden.
- Rolle vor Modell: Erst klären, ob ein Knoten Router, Worker, Judge oder Planner ist.
- Fehlerkosten beachten: Je teurer eine Fehlentscheidung wird, desto eher lohnt sich ein stärkeres Modell.
- Tool- und JSON-Verhalten prüfen: Für Agenten zählt nicht nur Textqualität, sondern auch stabiler Tool Use und strukturierte Ausgabe.
- Kosten und Latenz sichtbar machen: Modellwahl ist Teil der Architektur, nicht nur Qualitätsoptimierung.
Entscheidungsbaum
flowchart TD
START(["Welche Rolle hat der Knoten?"])
START --> R{"Routing oder Supervisor?"}
START --> J{"Judge oder Evaluation?"}
START --> W{"Worker, Code oder Synthese?"}
START --> D{"Demo oder Grundlagen?"}
R -->|einfach| ROUTER["gpt-5.4-nano"]
R -->|kritisch| SUP["gpt-5.4"]
J --> JUDGE["gpt-5.4 oder gpt-5.5"]
W --> WORKER["gpt-5.4-mini"]
D --> BASE["gpt-5.4-nano"]
Provider-Mapping
Für providerneutrale Architekturentscheidungen bleibt die Rollenlogik erhalten. Der Providerwechsel ist dann eine Zuordnung von Rollen auf passende Modellfamilien.
| Rolle | OpenAI | Mistral | Gemini | Anthropic |
|---|---|---|---|---|
| Baseline / Demo | gpt-5.4-nano | mistral-small-latest | gemini-3-flash-preview | claude-haiku-4-5 |
| Router / leichter Reasoner | gpt-5.4-nano | mistral-small-latest | gemini-3-flash-preview | claude-haiku-4-5 |
| Judge / starker Reasoner | gpt-5.4 | magistral-medium-latest oder mistral-large-latest | gemini-3.1-pro-preview | claude-opus-4-6 |
| Worker / Synthese | gpt-5.4-mini | mistral-medium-latest oder mistral-large-latest | gemini-3.1-pro-preview | claude-sonnet-4-6 |
| Coding-Worker | gpt-5.4-mini | devstral-latest oder codestral-latest | gemini-3.1-pro-preview | claude-sonnet-4-6 |
| Embeddings | text-embedding-3-small | mistral-embed | gemini-embedding-2-preview | externer Provider nötig |
[!NOTE] Provider-Mapping ist Planung, keine automatische Migration
Ein anderes Chat-Modell ersetzt nicht automatisch Embeddings, Logging, Kostenmodell oder API-spezifische Parameter.
Modellauswahlprozess: Schritt für Schritt
Die Auswahl des optimalen KI-Modells erfordert einen strukturierten Prozess:
flowchart LR
A[1. Anforderungs-<br>analyse] --> B[2. Bewertungs-<br>kriterien]
B --> C[3. Recherche &<br>Vorauswahl]
C --> D[4. Praktische<br>Bewertung]
D --> E[5. Finale Auswahl &<br>Implementierung]
A1[Aufgaben<br>Budget<br>Qualität] -.-> A
B1[Effizienz<br>Kosten<br>Skalierbarkeit] -.-> B
C1[Modelle<br>filtern] -.-> C
D1[Benchmarks<br>Tests] -.-> D
E1[Integration<br>Deployment] -.-> E
style A fill:#e3f2fd,stroke:#1976d2
style B fill:#fff3e0,stroke:#ff9800
style C fill:#f3e5f5,stroke:#9c27b0
style D fill:#e0f7fa,stroke:#00bcd4
style E fill:#c8e6c9,stroke:#388e3c
Anforderungsanalyse
- Definition der Aufgaben: Festlegen, welche spezifischen Funktionen das Modell erfüllen soll (z. B. Textgenerierung, Fragebeantwortung).
- Qualitätskriterien: Bestimmen, welche Qualitätsstandards (Kohärenz, Genauigkeit) erfüllt werden müssen.
- Domänenkenntnisse: Identifizieren, welches Fachwissen für die Aufgabe notwendig ist.
- Antwortgeschwindigkeit: Definieren, welche Reaktionszeit akzeptabel ist.
- Budget: Einen finanziellen Rahmen für die KI-Lösung setzen.
Bewertungskriterien
- Verständlichkeit: Wie klar und nachvollziehbar sind die Modellausgaben?
- Effizienz: Wie schnell verarbeitet das Modell Eingaben und liefert Ausgaben?
- Skalierbarkeit: Kann das Modell mit steigenden Anforderungen mitwachsen?
- Kosten: Wie hoch sind die Betriebs- und Nutzungskosten des Modells?
Recherche und Vorauswahl
- Verfügbare Modelle anhand der festgelegten Kriterien analysieren und eine Vorauswahl geeigneter Kandidaten bilden.
Praktische Modellbewertung
- Quantitative Methoden: Benchmarks und Metriken verwenden, um die Leistung objektiv zu messen.
- Qualitative Verfahren: Nutzerfeedback zur praktischen Verwendbarkeit sammeln.
- Testphase: Die Modelle in einer realistischen Umgebung erproben.
Finale Auswahl und Implementierung
- Eine begründete Entscheidung für das am besten geeignete Modell treffen und es in die eigenen Systeme integrieren.
Modellkaskade: Mehrere Modelle klug kombinieren
Die Modellkaskade kombiniert mehrere KI-Modelle, um ihre jeweiligen Stärken zu nutzen und Schwächen auszugleichen:
Beispiel für eine Modellkaskade
- Datenanalyse mit pandas: Analysiert große Datensätze und erstellt statistische Zusammenfassungen
- Planung mit
PLANNER: Strukturiert die Ergebnisse und erstellt eine logische Gliederung - Synthese mit
WORKERoderWORKER_PREMIUM: Verfasst den Ergebnistext auf Basis der Struktur - Multimodale Präsentation: Ergänzt den Text mit visuellen Elementen
Vorteile einer Modellkaskade
- Effizienzsteigerung: Jedes Modell wird für seine Stärken optimal eingesetzt
- Kostenoptimierung: Ressourcenschonende Modelle für einfache Aufgaben, teurere nur wo nötig
- Flexibilität: Bearbeitung unterschiedlichster Anforderungen durch spezialisierte Modelle
Bewertungsmethoden für KI-Modelle
Benchmarks richtig einordnen
Öffentliche Benchmarks wie MMLU können eine erste Orientierung geben, ersetzen aber keine Kursevaluation. Für Agentensysteme ist entscheidend, ob ein Modell die konkrete Rolle zuverlässig erfüllt: Routing, Tool-Aufruf, Planung, Synthese oder Bewertung. Ein hoher allgemeiner Benchmark-Wert hilft wenig, wenn strukturierte Ausgabe instabil ist oder ein Router zu teuer und zu langsam wird.
Grenze: Statische Benchmark-Tabellen altern schnell. In Kursunterlagen werden deshalb keine konkreten Ranglisten gepflegt; die praktische Bewertung erfolgt anhand der Rollen aus model_config.py.
Bewertungsdimensionen
Die Bewertung von KI-Modellen umfasst verschiedene Aspekte:
- Rollenqualität: Erfüllt das Modell die konkrete Aufgabe, etwa Routing, Planung, Synthese oder Bewertung?
- Werkzeugverhalten: Nutzt das Modell externe Tools zuverlässig und mit stabilen Argumenten?
- Ausgabeformat: Hält das Modell JSON, Tabellen, Checklisten oder andere Strukturvorgaben ein?
- Sicherheit: Bleibt das Modell bei Störungen, Injection-Versuchen und unklaren Anforderungen kontrollierbar?
- Kosten und Latenz: Passt das Modell zur erwarteten Nutzungshäufigkeit?
Konkrete Bewertungsmethoden
Automatisierte Metriken
- BLEU: Misst die Übereinstimmung zwischen generiertem und Referenztext durch Vergleich von Wortgruppen.
- ROUGE: Bewertet die Qualität von Zusammenfassungen durch Analyse übereinstimmender Wortsequenzen.
Menschliche Bewertung
- Bewertung nach Kriterien wie Grammatik, Zusammenhang, Lesbarkeit und Relevanz
- Elo-System für den direkten Vergleich verschiedener Modelle (ähnlich wie bei Schach-Ratings)
KI-basierte Bewertung
- Einsatz von
JUDGEoderJUDGE_PREMIUMzur Bewertung anderer Modellrollen - Automatische Erkennung von Fehlinformationen in KI-Antworten
Praktische Anwendungsbereiche
Die Modellevaluierung und -auswahl findet in verschiedenen Szenarien Anwendung:
Kundenservice-Chatbots
- Auswahl einer schnellen Baseline- oder Worker-Rolle mit guter Verständlichkeit und Mehrsprachigkeit
- Bewertung nach Kundenzufriedenheit und Lösungsrate
Content-Erstellung
- Nutzung einer passenden Worker-Rolle für Marketing, Social Media und Blogbeiträge
- Bewertung nach Originalität, Engagement und Konversionsraten
Technische Assistenz
- Einsatz von
CODING,PLANNERoderJUDGEfür Programmierung, Planung und Fehlerbewertung - Bewertung nach Codequalität und Lösungsgeschwindigkeit
Was für Entwickler zuerst wichtig ist
Modellauswahl ist keine Rangliste, sondern eine Architekturentscheidung. Ein günstiges Modell kann für Routing, Klassifikation oder einfache Tool-Auswahl besser passen als ein großes Reasoning-Modell; ein stärkeres Modell lohnt sich vor allem dort, wo Fehler teuer sind oder mehrere Teilschritte wirklich verstanden werden müssen.
In der Praxis relevant, wenn: Ein Agent mehrere Rollen kombiniert. Dann sollte nicht ein einziges Modell alles erledigen, sondern jede Rolle nach Qualitätsbedarf, Kosten und Latenz bewertet werden.
Abgrenzung zu verwandten Dokumenten
| Dokument | Frage |
|---|---|
| Fine-Tuning | Wann reicht Modellwahl nicht mehr und Training wird notwendig? |
| Context Engineering | Welche Kontextstrategie entscheidet mit darüber, ob ein Modell genügt? |
| Qualität und Sicherheit | Wie werden Modellqualität, Tracing und Evaluation sichtbar gemacht? |
Version: 1.3
Stand: Mai 2026
Kurs: KI-Agenten. Verstehen. Anwenden. Gestalten.