Modellauswahl

[!NOTE] Kernfrage
Welches Modell passt zur Aufgabe, zum Risiko, zum Budget und zur Latenzanforderung?


Inhaltsverzeichnis

  1. Modellrollen im Kurs
  2. OpenAI-Default und Designregeln
    1. Entscheidungsregeln
  3. Entscheidungsbaum
  4. Provider-Mapping
  5. Modellauswahlprozess: Schritt für Schritt
    1. Anforderungsanalyse
    2. Bewertungskriterien
    3. Recherche und Vorauswahl
    4. Praktische Modellbewertung
    5. Finale Auswahl und Implementierung
  6. Modellkaskade: Mehrere Modelle klug kombinieren
    1. Beispiel für eine Modellkaskade
    2. Vorteile einer Modellkaskade
  7. Bewertungsmethoden für KI-Modelle
    1. Benchmarks richtig einordnen
    2. Bewertungsdimensionen
    3. Konkrete Bewertungsmethoden
      1. Automatisierte Metriken
      2. Menschliche Bewertung
      3. KI-basierte Bewertung
  8. Praktische Anwendungsbereiche
    1. Kundenservice-Chatbots
    2. Content-Erstellung
    3. Technische Assistenz
  9. Was für Entwickler zuerst wichtig ist
  10. Abgrenzung zu verwandten Dokumenten

Modellrollen im Kurs

Die Kursunterlagen verwenden keine freie Modellrangliste, sondern eine rollenbasierte Konfiguration in genai_lib.model_config.py. Dort ist festgelegt, welches Modell für einfache Demos, Worker, Planung, Bewertung, Übersetzung und Embeddings verwendet wird.

Typischer Fehler: Das stärkste verfügbare Modell wird als Standard gewählt. Für viele Agentenschritte sind Kosten, Latenz, Tool-Zuverlässigkeit oder strukturierte Ausgabe wichtiger als maximale Benchmark-Leistung.

Kursrolle Konstante Modell Einsatz
Baseline / Demo BASELINE openai:gpt-5.4-nano einfache Beispiele, erste Läufe, Kostenkontrolle
Router / leichter Reasoner ROUTER openai:gpt-5.4-nano klare Auswahlentscheidungen mit wenigen Wegen
Worker / Synthese WORKER openai:gpt-5.4-mini RAG-Synthese, strukturierte Ausgaben, Standard-Worker
Coding-Worker CODING openai:gpt-5.4-mini Codegenerierung, Refactoring, technische Agenten
Judge / starker Reasoner JUDGE openai:gpt-5.4 Bewertung, Evaluation, Supervisor, Compliance
Planner PLANNER openai:gpt-5.4 Aufgabenzerlegung, Schrittplanung, Agentic RAG
Hochwertiger Worker WORKER_PREMIUM openai:gpt-5.4 komplexe Synthese, finale Reports
Premium Judge / Planner JUDGE_PREMIUM, PLANNER_PREMIUM openai:gpt-5.5 kritische Entscheidungen, maximale Qualität
Übersetzung TRANSLATOR_FAST, TRANSLATOR, TRANSLATOR_PREMIUM openai:gpt-5.4-nano, openai:gpt-5.4-mini, openai:gpt-5.5 Rohübersetzung, Kursmaterial, finale Veröffentlichung
Embeddings EMBEDDINGS text-embedding-3-small Retrieval, Chunk-Suche, Vektorindizes

Diese Rollen machen Modellwahl im Kurs überprüfbar. Entwickler vergleichen nicht beliebige Modellnamen, sondern entscheiden, ob ein Schritt Baseline, Worker, Planner oder Judge ist.

[!IMPORTANT] GPT-5.x-Konfiguration
Modelle der GPT-5.x-Serie werden in den Kursmaterialien nicht pauschal mit temperature konfiguriert. Qualitätssteuerung erfolgt über präzise Prompts sowie bei Bedarf über reasoning.effort und text.verbosity.

OpenAI-Default und Designregeln

Der Kurs nutzt konkrete OpenAI-Modelle, aber die Entscheidung dahinter bleibt rollenbasiert. Wichtig ist nicht zuerst der Produktname, sondern die Aufgabe des Knotens.

Situation Kurs-Default Begründung
Grundlagen, Demos, einfache Klassifikation gpt-5.4-nano schnell, günstig, ausreichend für klare Aufgaben
einfaches Routing gpt-5.4-nano gute Kosten-/Latenz-Balance bei wenigen Routen
Worker, Synthese, strukturierte Ausgabe gpt-5.4-mini Standardmodell für produktivere Arbeitsschritte
Coding-Worker gpt-5.4-mini geeignet für Code, Refactoring und technische Aufgaben
Supervisor, Judge, Planner gpt-5.4 stärkeres Reasoning für Entscheidungen mit Folgewirkung
kritische Entscheidung oder finale Bewertung gpt-5.5 Premium-Option bei hohen Qualitäts- oder Sicherheitsanforderungen

Entscheidungsregeln

  1. Baseline zuerst: Mit einem günstigen Standardmodell starten und erst bei messbarem Bedarf upgraden.
  2. Rolle vor Modell: Erst klären, ob ein Knoten Router, Worker, Judge oder Planner ist.
  3. Fehlerkosten beachten: Je teurer eine Fehlentscheidung wird, desto eher lohnt sich ein stärkeres Modell.
  4. Tool- und JSON-Verhalten prüfen: Für Agenten zählt nicht nur Textqualität, sondern auch stabiler Tool Use und strukturierte Ausgabe.
  5. Kosten und Latenz sichtbar machen: Modellwahl ist Teil der Architektur, nicht nur Qualitätsoptimierung.

Entscheidungsbaum

flowchart TD
    START(["Welche Rolle hat der Knoten?"])
    START --> R{"Routing oder Supervisor?"}
    START --> J{"Judge oder Evaluation?"}
    START --> W{"Worker, Code oder Synthese?"}
    START --> D{"Demo oder Grundlagen?"}

    R -->|einfach| ROUTER["gpt-5.4-nano"]
    R -->|kritisch| SUP["gpt-5.4"]
    J --> JUDGE["gpt-5.4 oder gpt-5.5"]
    W --> WORKER["gpt-5.4-mini"]
    D --> BASE["gpt-5.4-nano"]

Provider-Mapping

Für providerneutrale Architekturentscheidungen bleibt die Rollenlogik erhalten. Der Providerwechsel ist dann eine Zuordnung von Rollen auf passende Modellfamilien.

Rolle OpenAI Mistral Gemini Anthropic
Baseline / Demo gpt-5.4-nano mistral-small-latest gemini-3-flash-preview claude-haiku-4-5
Router / leichter Reasoner gpt-5.4-nano mistral-small-latest gemini-3-flash-preview claude-haiku-4-5
Judge / starker Reasoner gpt-5.4 magistral-medium-latest oder mistral-large-latest gemini-3.1-pro-preview claude-opus-4-6
Worker / Synthese gpt-5.4-mini mistral-medium-latest oder mistral-large-latest gemini-3.1-pro-preview claude-sonnet-4-6
Coding-Worker gpt-5.4-mini devstral-latest oder codestral-latest gemini-3.1-pro-preview claude-sonnet-4-6
Embeddings text-embedding-3-small mistral-embed gemini-embedding-2-preview externer Provider nötig

[!NOTE] Provider-Mapping ist Planung, keine automatische Migration
Ein anderes Chat-Modell ersetzt nicht automatisch Embeddings, Logging, Kostenmodell oder API-spezifische Parameter.

Modellauswahlprozess: Schritt für Schritt

Die Auswahl des optimalen KI-Modells erfordert einen strukturierten Prozess:

flowchart LR
    A[1. Anforderungs-<br>analyse] --> B[2. Bewertungs-<br>kriterien]
    B --> C[3. Recherche &<br>Vorauswahl]
    C --> D[4. Praktische<br>Bewertung]
    D --> E[5. Finale Auswahl &<br>Implementierung]

    A1[Aufgaben<br>Budget<br>Qualität] -.-> A
    B1[Effizienz<br>Kosten<br>Skalierbarkeit] -.-> B
    C1[Modelle<br>filtern] -.-> C
    D1[Benchmarks<br>Tests] -.-> D
    E1[Integration<br>Deployment] -.-> E

    style A fill:#e3f2fd,stroke:#1976d2
    style B fill:#fff3e0,stroke:#ff9800
    style C fill:#f3e5f5,stroke:#9c27b0
    style D fill:#e0f7fa,stroke:#00bcd4
    style E fill:#c8e6c9,stroke:#388e3c

Anforderungsanalyse

  • Definition der Aufgaben: Festlegen, welche spezifischen Funktionen das Modell erfüllen soll (z. B. Textgenerierung, Fragebeantwortung).
  • Qualitätskriterien: Bestimmen, welche Qualitätsstandards (Kohärenz, Genauigkeit) erfüllt werden müssen.
  • Domänenkenntnisse: Identifizieren, welches Fachwissen für die Aufgabe notwendig ist.
  • Antwortgeschwindigkeit: Definieren, welche Reaktionszeit akzeptabel ist.
  • Budget: Einen finanziellen Rahmen für die KI-Lösung setzen.

Bewertungskriterien

  • Verständlichkeit: Wie klar und nachvollziehbar sind die Modellausgaben?
  • Effizienz: Wie schnell verarbeitet das Modell Eingaben und liefert Ausgaben?
  • Skalierbarkeit: Kann das Modell mit steigenden Anforderungen mitwachsen?
  • Kosten: Wie hoch sind die Betriebs- und Nutzungskosten des Modells?

Recherche und Vorauswahl

  • Verfügbare Modelle anhand der festgelegten Kriterien analysieren und eine Vorauswahl geeigneter Kandidaten bilden.

Praktische Modellbewertung

  • Quantitative Methoden: Benchmarks und Metriken verwenden, um die Leistung objektiv zu messen.
  • Qualitative Verfahren: Nutzerfeedback zur praktischen Verwendbarkeit sammeln.
  • Testphase: Die Modelle in einer realistischen Umgebung erproben.

Finale Auswahl und Implementierung

  • Eine begründete Entscheidung für das am besten geeignete Modell treffen und es in die eigenen Systeme integrieren.

Interaktive Modellauswahl

Modellkaskade: Mehrere Modelle klug kombinieren

Die Modellkaskade kombiniert mehrere KI-Modelle, um ihre jeweiligen Stärken zu nutzen und Schwächen auszugleichen:

Beispiel für eine Modellkaskade

  1. Datenanalyse mit pandas: Analysiert große Datensätze und erstellt statistische Zusammenfassungen
  2. Planung mit PLANNER: Strukturiert die Ergebnisse und erstellt eine logische Gliederung
  3. Synthese mit WORKER oder WORKER_PREMIUM: Verfasst den Ergebnistext auf Basis der Struktur
  4. Multimodale Präsentation: Ergänzt den Text mit visuellen Elementen

Vorteile einer Modellkaskade

  1. Effizienzsteigerung: Jedes Modell wird für seine Stärken optimal eingesetzt
  2. Kostenoptimierung: Ressourcenschonende Modelle für einfache Aufgaben, teurere nur wo nötig
  3. Flexibilität: Bearbeitung unterschiedlichster Anforderungen durch spezialisierte Modelle

Bewertungsmethoden für KI-Modelle

Benchmarks richtig einordnen

Öffentliche Benchmarks wie MMLU können eine erste Orientierung geben, ersetzen aber keine Kursevaluation. Für Agentensysteme ist entscheidend, ob ein Modell die konkrete Rolle zuverlässig erfüllt: Routing, Tool-Aufruf, Planung, Synthese oder Bewertung. Ein hoher allgemeiner Benchmark-Wert hilft wenig, wenn strukturierte Ausgabe instabil ist oder ein Router zu teuer und zu langsam wird.

Grenze: Statische Benchmark-Tabellen altern schnell. In Kursunterlagen werden deshalb keine konkreten Ranglisten gepflegt; die praktische Bewertung erfolgt anhand der Rollen aus model_config.py.

Bewertungsdimensionen

Die Bewertung von KI-Modellen umfasst verschiedene Aspekte:

  1. Rollenqualität: Erfüllt das Modell die konkrete Aufgabe, etwa Routing, Planung, Synthese oder Bewertung?
  2. Werkzeugverhalten: Nutzt das Modell externe Tools zuverlässig und mit stabilen Argumenten?
  3. Ausgabeformat: Hält das Modell JSON, Tabellen, Checklisten oder andere Strukturvorgaben ein?
  4. Sicherheit: Bleibt das Modell bei Störungen, Injection-Versuchen und unklaren Anforderungen kontrollierbar?
  5. Kosten und Latenz: Passt das Modell zur erwarteten Nutzungshäufigkeit?

Konkrete Bewertungsmethoden

Automatisierte Metriken

  • BLEU: Misst die Übereinstimmung zwischen generiertem und Referenztext durch Vergleich von Wortgruppen.
  • ROUGE: Bewertet die Qualität von Zusammenfassungen durch Analyse übereinstimmender Wortsequenzen.

Menschliche Bewertung

  • Bewertung nach Kriterien wie Grammatik, Zusammenhang, Lesbarkeit und Relevanz
  • Elo-System für den direkten Vergleich verschiedener Modelle (ähnlich wie bei Schach-Ratings)

KI-basierte Bewertung

  • Einsatz von JUDGE oder JUDGE_PREMIUM zur Bewertung anderer Modellrollen
  • Automatische Erkennung von Fehlinformationen in KI-Antworten

Praktische Anwendungsbereiche

Die Modellevaluierung und -auswahl findet in verschiedenen Szenarien Anwendung:

Kundenservice-Chatbots

  • Auswahl einer schnellen Baseline- oder Worker-Rolle mit guter Verständlichkeit und Mehrsprachigkeit
  • Bewertung nach Kundenzufriedenheit und Lösungsrate

Content-Erstellung

  • Nutzung einer passenden Worker-Rolle für Marketing, Social Media und Blogbeiträge
  • Bewertung nach Originalität, Engagement und Konversionsraten

Technische Assistenz

  • Einsatz von CODING, PLANNER oder JUDGE für Programmierung, Planung und Fehlerbewertung
  • Bewertung nach Codequalität und Lösungsgeschwindigkeit

Was für Entwickler zuerst wichtig ist

Modellauswahl ist keine Rangliste, sondern eine Architekturentscheidung. Ein günstiges Modell kann für Routing, Klassifikation oder einfache Tool-Auswahl besser passen als ein großes Reasoning-Modell; ein stärkeres Modell lohnt sich vor allem dort, wo Fehler teuer sind oder mehrere Teilschritte wirklich verstanden werden müssen.

In der Praxis relevant, wenn: Ein Agent mehrere Rollen kombiniert. Dann sollte nicht ein einziges Modell alles erledigen, sondern jede Rolle nach Qualitätsbedarf, Kosten und Latenz bewertet werden.

Abgrenzung zu verwandten Dokumenten

Dokument Frage
Fine-Tuning Wann reicht Modellwahl nicht mehr und Training wird notwendig?
Context Engineering Welche Kontextstrategie entscheidet mit darüber, ob ein Modell genügt?
Qualität und Sicherheit Wie werden Modellqualität, Tracing und Evaluation sichtbar gemacht?

Version: 1.3
Stand: Mai 2026
Kurs: KI-Agenten. Verstehen. Anwenden. Gestalten.