RAG-Konzepte
Retrieval Augmented Generation im Detail – Architektur, Strategien und Best Practices
Inhaltsverzeichnis
- Überblick: Was ist RAG?
- Die RAG-Architektur
- Chunking: Dokumente sinnvoll zerlegen
- Embeddings: Text als Vektor
- Retrieval: Die richtigen Dokumente finden
- Reranking: Ergebnisse optimieren
- Advanced RAG-Techniken
- RAG-Chain mit LangChain
- Evaluierung von RAG-Systemen
- Troubleshooting
- Best Practices
- Zusammenfassung
- Abgrenzung zu verwandten Dokumenten
Überblick: Was ist RAG?
Large Language Models besitzen beeindruckende Fähigkeiten, stoßen jedoch an klare Grenzen:
| Limitation | Beschreibung |
|---|---|
| Wissens-Cutoff | Das Modell kennt nur Informationen bis zum Trainingszeitpunkt |
| Kein Domänenwissen | Firmeninterne Dokumente, Fachrichtlinien oder aktuelle Daten fehlen |
| Halluzination | Bei Wissenslücken werden plausible, aber falsche Antworten generiert |
| Kontextlimit | Nicht alle relevanten Dokumente passen in einen einzelnen Prompt |
| Cross-Document-Reasoning | RAG findet, was existiert — nicht, was fehlt. Lücken zwischen Dokumenten (z. B. “Welche Anforderungen wurden im Release weggelassen?”) sind nicht abrufbar, weil kein Chunk sie enthält |
Retrieval Augmented Generation (RAG) löst diese Probleme durch einen eleganten Ansatz: Statt das LLM mit mehr Daten zu trainieren, werden relevante Informationen zur Laufzeit abgerufen und dem Prompt hinzugefügt.
Frage → Suche relevante Dokumente → Füge Kontext zum Prompt → LLM generiert Antwort
Kernidee: Das LLM erhält genau die Informationen, die es für die aktuelle Frage benötigt – nicht mehr und nicht weniger.
RAG ist nicht die einzige Augmentierungsstrategie. Eine Alternative ist CAG (Cache Augmented Generation): statt relevante Chunks abzurufen, wird die gesamte Wissensbasis vorab in das Kontextfenster geladen und als KV-Cache gespeichert. CAG hat niedrigere Latenz, ist aber durch die Kontextfenstergröße begrenzt und eignet sich nur für kleine, statische Wissensbasen. Für Vergleich, Entscheidungshilfe und Hybrid-Ansätze (RAG + CAG kombiniert) → RAG vs. CAG (geplant).
Die RAG-Architektur
Ein RAG-System besteht aus zwei Hauptphasen: Indexierung (einmalig) und Retrieval + Generation (bei jeder Anfrage).
Indexierungsphase
flowchart LR
A[Dokumente] --> B[Laden]
B --> C[Chunking]
C --> D[Embedding]
D --> E[Vektordatenbank]
| Schritt | Beschreibung | Typische Tools |
|---|---|---|
| Laden | Dokumente aus verschiedenen Quellen einlesen | TextLoader, PyPDFLoader, WebBaseLoader |
| Chunking | Große Dokumente in kleinere Teile zerlegen | RecursiveCharacterTextSplitter |
| Embedding | Textchunks in Vektoren umwandeln | OpenAIEmbeddings, HuggingFaceEmbeddings |
| Speichern | Vektoren in Datenbank ablegen | ChromaDB, FAISS, Pinecone |
Abfragephase
flowchart LR
A[Frage] --> B[Embedding]
B --> C[Similarity Search]
C --> D[Top-k Dokumente]
D --> E[Prompt + Kontext]
E --> F[LLM]
F --> G[Antwort]
| Schritt | Beschreibung |
|---|---|
| Query-Embedding | Die Frage wird in denselben Vektorraum transformiert |
| Similarity Search | Die ähnlichsten Dokumentvektoren werden gefunden |
| Kontext-Erstellung | Gefundene Chunks werden zum Prompt hinzugefügt |
| Generation | Das LLM generiert eine Antwort basierend auf dem Kontext |
[!WARNING] Retrieval verbessert Relevanz — garantiert aber keine Faktentreue.
RAG reduziert Halluzination, eliminiert sie nicht. Das LLM kann relevante Dokumente fehlinterpretieren, kombinieren oder ergänzen. Kritische Anwendungen brauchen zusätzliche Validierung der generierten Antworten.
Chunking: Dokumente sinnvoll zerlegen
Chunking ist eine der kritischsten Entscheidungen in einem RAG-System. Zu große Chunks verschwenden Kontext, zu kleine Chunks verlieren Zusammenhang.
[!TIP] Chunking-Strategie beeinflusst Retrieval-Qualität stark
Die Wahl vonchunk_sizeundchunk_overlapist dokumenttypabhängig. Falsch gewählte Parameter sind häufig die Ursache für schlechte RAG-Ergebnisse — noch bevor das LLM überhaupt zum Einsatz kommt.
Chunking-Strategien
| Strategie | Beschreibung | Anwendungsfall |
|---|---|---|
| Fixed-Size | Feste Zeichenanzahl pro Chunk | Einfache Texte ohne Struktur |
| Recursive | Hierarchische Trennung (Absatz → Satz → Wort) | Allgemeine Dokumente |
| Semantic | Trennung nach Bedeutungseinheiten | Komplexe Fachtexte |
| Document-based | Beibehaltung natürlicher Grenzen (Kapitel, Abschnitte) | Strukturierte Dokumente |
Der RecursiveCharacterTextSplitter
Der am häufigsten verwendete Splitter arbeitet mit einer Hierarchie von Trennzeichen:
from langchain_text_splitters import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=500, # Maximale Chunk-Größe in Zeichen
chunk_overlap=100, # Überlappung zwischen Chunks
separators=["\n\n", "\n", ". ", " ", ""] # Trennzeichen-Hierarchie
)
Funktionsweise:
- Versuche zuerst, an Doppel-Zeilenumbrüchen zu trennen (Absätze)
- Falls Chunk zu groß: Trenne an einfachen Zeilenumbrüchen
- Falls immer noch zu groß: Trenne an Satzenden
- Letzte Option: Trenne an Leerzeichen oder einzelnen Zeichen
Overlap: Kontext bewahren
Dokument: [AAAA|BBBB|CCCC|DDDD]
Ohne Overlap:
Chunk 1: [AAAA]
Chunk 2: [BBBB]
→ Information an Grenzen geht verloren
Mit Overlap (25%):
Chunk 1: [AAAA|BB]
Chunk 2: [BB|CCCC]
→ Zusammenhänge bleiben erhalten
Empfehlungen nach Dokumenttyp
| Dokumenttyp | chunk_size | chunk_overlap | Begründung |
|---|---|---|---|
| FAQ / Kurztexte | 200–300 | 50 | Präzise, eigenständige Antworten |
| Handbücher | 500–800 | 100–150 | Kontext zwischen Abschnitten erhalten |
| Rechtsdokumente | 800–1000 | 200 | Vollständige Paragraphen wichtig |
| Code-Dokumentation | 300–500 | 100 | Funktionen zusammenhalten |
Embeddings: Text als Vektor
Embeddings sind das Herzstück der semantischen Suche. Sie transformieren Text in numerische Vektoren, wobei ähnliche Bedeutungen zu ähnlichen Vektoren führen.
Konzept
"Der Hund spielt im Park" → [0.12, -0.45, 0.78, ..., 0.33] (1536 Dim.)
"Die Katze liegt im Garten" → [0.15, -0.42, 0.71, ..., 0.29] (ähnlich!)
"Quantenmechanik ist komplex" → [-0.89, 0.23, -0.11, ..., 0.67] (anders!)
Verfügbare Embedding-Modelle
| Modell | Dimensionen | Kosten | Qualität |
|---|---|---|---|
text-embedding-3-small (OpenAI) | 1536 | ~$0.02/1M Tokens | ⭐⭐⭐⭐ |
text-embedding-3-large (OpenAI) | 3072 | ~$0.13/1M Tokens | ⭐⭐⭐⭐⭐ |
all-MiniLM-L6-v2 (HuggingFace) | 384 | Kostenlos | ⭐⭐⭐ |
multilingual-e5-large (HuggingFace) | 1024 | Kostenlos | ⭐⭐⭐⭐ |
Ähnlichkeitsmaße
Die Ähnlichkeit zwischen Vektoren wird mathematisch berechnet:
| Maß | Beschreibung | Wertebereich |
|---|---|---|
| Cosine Similarity | Winkel zwischen Vektoren | -1 bis 1 |
| Euclidean Distance | Geometrischer Abstand | 0 bis ∞ |
| Dot Product | Skalarprodukt | -∞ bis ∞ |
Cosine Similarity ist der Standard, da sie unabhängig von der Vektorlänge nur die “Richtung” (= Bedeutung) vergleicht.
Beispiel: Embeddings erzeugen
from langchain_openai import OpenAIEmbeddings
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
# Einzelner Text (für Queries)
query_vector = embedding_model.embed_query("Was ist ein KI-Agent?")
# Mehrere Texte (für Dokumente)
doc_vectors = embedding_model.embed_documents([
"Text 1", "Text 2", "Text 3"
])
Retrieval: Die richtigen Dokumente finden
Der Retriever ist die Brücke zwischen Frage und relevantem Wissen. Verschiedene Strategien optimieren die Trefferqualität.
Basis-Retrieval: Similarity Search
from langchain_community.vectorstores import Chroma
vectorstore = Chroma.from_documents(chunks, embedding_model)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
# Suche
docs = retriever.invoke("Wie funktioniert RAG?")
Retrieval-Strategien im Vergleich
| Strategie | Beschreibung | Vorteil | Nachteil |
|---|---|---|---|
| Similarity | Ähnlichste Vektoren | Schnell, einfach | Keine Qualitätsgarantie |
| MMR | Maximum Marginal Relevance | Diversität der Ergebnisse | Etwas langsamer |
| Threshold | Nur Ergebnisse über Schwellenwert | Qualitätskontrolle | Kann leer zurückkommen |
| Hybrid | Keyword + Semantisch kombiniert | Beste Abdeckung | Komplexer aufzusetzen |
Maximum Marginal Relevance (MMR)
MMR balanciert Relevanz und Diversität. Statt nur die ähnlichsten Dokumente zurückzugeben, werden auch unterschiedliche Perspektiven berücksichtigt.
retriever = vectorstore.as_retriever(
search_type="mmr",
search_kwargs={
"k": 5, # Finale Anzahl
"fetch_k": 20, # Kandidaten für MMR
"lambda_mult": 0.7 # Balance (1.0 = nur Relevanz, 0.0 = nur Diversität)
}
)
Score-basiertes Filtering
retriever = vectorstore.as_retriever(
search_type="similarity_score_threshold",
search_kwargs={
"score_threshold": 0.5, # Mindest-Ähnlichkeit
"k": 10
}
)
Metadaten-Filter
retriever = vectorstore.as_retriever(
search_kwargs={
"k": 5,
"filter": {"source": "handbuch.pdf", "kapitel": "Sicherheit"}
}
)
Reranking: Ergebnisse optimieren
Reranking verbessert die Qualität der gefundenen Dokumente durch einen zweiten Bewertungsschritt.
Warum Reranking?
Die initiale Vektorsuche ist schnell, aber nicht perfekt. Reranking verwendet ein präziseres (aber langsameres) Modell, um die Top-Ergebnisse neu zu ordnen.
Schritt 1: Similarity Search → 20 Kandidaten
Schritt 2: Reranker bewertet alle 20 → Sortiert nach Qualität
Schritt 3: Top 5 werden verwendet
Reranking-Ansätze
| Ansatz | Beschreibung | Performance |
|---|---|---|
| Cross-Encoder | Betrachtet Query + Dokument gemeinsam | Höchste Qualität, langsam |
| LLM-based | LLM bewertet Relevanz | Flexibel, teuer |
| Lightweight | Schnelle Heuristiken | Schnell, moderate Qualität |
Beispiel: Cohere Reranker
from langchain.retrievers import ContextualCompressionRetriever
from langchain_cohere import CohereRerank
base_retriever = vectorstore.as_retriever(search_kwargs={"k": 20})
reranker = CohereRerank(model="rerank-english-v3.0", top_n=5)
compression_retriever = ContextualCompressionRetriever(
base_compressor=reranker,
base_retriever=base_retriever
)
docs = compression_retriever.invoke("Meine Frage")
Advanced RAG-Techniken
Über die Grundlagen hinaus existieren fortgeschrittene Techniken zur Qualitätsverbesserung.
Query Transformation
Die ursprüngliche Frage wird umformuliert oder erweitert, um bessere Treffer zu erzielen.
Multi-Query: Eine Frage wird in mehrere Varianten umgewandelt:
Original: "Wie funktioniert RAG?"
→ "Was ist Retrieval Augmented Generation?"
→ "Erkläre die RAG-Architektur"
→ "RAG-System Komponenten"
HyDE (Hypothetical Document Embedding): Das LLM generiert eine hypothetische Antwort, die dann für die Suche verwendet wird:
Frage: "Wie funktioniert RAG?"
→ LLM generiert: "RAG kombiniert Retrieval und Generation..."
→ Suche nach Dokumenten ähnlich zur hypothetischen Antwort
Self-Query
Das LLM extrahiert strukturierte Filter aus natürlichsprachlichen Fragen:
Frage: "Zeige mir Sicherheitsrichtlinien aus 2024"
→ Extrahiert: {"kategorie": "sicherheit", "jahr": 2024}
→ Kombiniert semantische Suche mit Metadaten-Filter
Contextual Compression
Gefundene Dokumente werden auf das Wesentliche komprimiert:
Gefundener Chunk (500 Zeichen):
"Die Firma wurde 1995 gegründet. Der Hauptsitz befindet sich in Berlin.
Die Sicherheitsrichtlinien wurden 2023 aktualisiert und umfassen..."
Nach Compression (relevanter Teil für Frage "Sicherheitsrichtlinien"):
"Die Sicherheitsrichtlinien wurden 2023 aktualisiert und umfassen..."
Parent Document Retriever
Kleine Chunks für präzises Retrieval, aber größere Kontextfenster für die Generierung:
Indexierung: Kleine Chunks (200 Zeichen) → Vektordatenbank
Retrieval: Finde relevante kleine Chunks
Rückgabe: Hole zugehörige Parent-Dokumente (2000 Zeichen)
RAG-Chain mit LangChain
Die Kombination aller Komponenten zu einer funktionierenden Pipeline.
Minimales Beispiel
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.chat_models import init_chat_model
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
# Komponenten
llm = init_chat_model("openai:gpt-4o-mini", temperature=0.0)
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunks, embedding_model)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
# Hilfsfunktion
def format_docs(docs):
return "\n\n".join(doc.page_content for doc in docs)
# RAG-Prompt
rag_prompt = ChatPromptTemplate.from_template(
"""Beantworte die Frage basierend auf dem folgenden Kontext.
Wenn die Antwort nicht im Kontext steht, sage ehrlich, dass keine Information vorliegt.
Kontext:
{context}
Frage: {question}
Antwort:"""
)
# LCEL Chain
rag_chain = (
{
"context": retriever | format_docs,
"question": RunnablePassthrough()
}
| rag_prompt
| llm
| StrOutputParser()
)
# Aufruf
antwort = rag_chain.invoke("Wie funktioniert das System?")
RAG als Agent-Tool
from langchain_core.tools import tool
@tool
def firmenwissen_suchen(frage: str) -> str:
"""🔍 FIRMENWISSEN – Durchsucht interne Dokumente.
Verwenden für Fragen zu:
- Unternehmensrichtlinien
- Internen Prozessen
- Produktinformationen
Args:
frage: Die Suchanfrage in natürlicher Sprache
Returns:
Relevante Informationen aus den Firmendokumenten
"""
try:
return rag_chain.invoke(frage)
except Exception as e:
return f"Fehler bei der Suche: {str(e)}"
Evaluierung von RAG-Systemen
Die Qualität eines RAG-Systems wird auf zwei Ebenen gemessen:
| Ebene | Metrik | Misst |
|---|---|---|
| Retrieval | Precision@k | Anteil relevanter Dokumente unter den Gefundenen |
| Retrieval | Recall@k | Anteil gefundener relevanter Dokumente |
| Generation | Faithfulness | Basiert die Antwort ausschließlich auf dem Kontext? |
| Generation | Answer Relevance | Beantwortet die Antwort die gestellte Frage? |
| Generation | Context Relevance | Ist der abgerufene Kontext tatsächlich relevant? |
Faithfulness ist die wichtigste RAG-Metrik: Sie prüft, ob das Modell halluziniert oder sich strikt auf die abgerufenen Dokumente stützt.
Für Implementierungsdetails zu Evaluatoren, LangSmith-Integration, RAGAS-Framework, LLM-as-Judge und Regression-Tests siehe → Evaluation & Testing.
Troubleshooting
Häufige Probleme und deren Lösungen.
Problem: Keine relevanten Dokumente gefunden
Wenn der Retriever die richtigen Chunks nicht zurückliefert, beantwortet das LLM die Frage trotzdem — aber ohne die benötigte Information. Dieses Muster wird Silent Failure genannt: Die Antwort existierte in der Wissensbasis, das LLM hat sie nie gesehen.
| Ursache | Diagnose | Lösung |
|---|---|---|
| Collection leer | vectorstore._collection.count() | Dokumente indexieren |
| Falsches Embedding-Modell | Dimensionen vergleichen | Gleiches Modell für Index und Query |
| Query zu spezifisch | Mit breiterem Begriff testen | Query umformulieren |
| k zu klein | k erhöhen | search_kwargs={"k": 10} |
Problem: Falsche Antworten trotz korrektem Kontext
| Ursache | Lösung |
|---|---|
| Prompt unklar | Anweisungen präzisieren |
| Zu viel Kontext | Weniger Chunks, Compression nutzen |
| Widersprüchliche Dokumente | Metadaten-Filter für Aktualität |
| Halluzination | Explizite Anweisung: “Nur basierend auf Kontext” |
Problem: Langsame Antwortzeiten
| Komponente | Optimierung |
|---|---|
| Embedding | Batch-Verarbeitung, Caching |
| Retrieval | Index optimieren, k reduzieren |
| Reranking | Weniger Kandidaten, leichteres Modell |
| LLM | Streaming aktivieren, schnelleres Modell |
Best Practices
Indexierung
- Konsistentes Embedding-Modell: Dasselbe Modell für Indexierung und Queries verwenden
- Sinnvolles Chunking: Dokumenttyp-spezifische Parameter wählen
- Metadaten anreichern: Quelle, Datum, Kategorie für späteres Filtern
- Inkrementelle Updates: Nur geänderte Dokumente neu indexieren
Retrieval
- k sinnvoll wählen: Zu wenig = fehlender Kontext, zu viel = Rauschen
- MMR für Diversität: Bei breiten Themen verschiedene Perspektiven einbeziehen
- Threshold für Qualität: Lieber keine Antwort als eine falsche
Prompt Design
- Klare Anweisungen: “Antworte NUR basierend auf dem Kontext”
- Fallback definieren: Was tun bei fehlendem Wissen?
- Quellenangaben: Antwort mit Dokumentreferenzen anreichern
Evaluation
- Test-Dataset erstellen: Repräsentative Fragen mit erwarteten Antworten
- Regelmäßig evaluieren: Nach jedem Update der Wissensbasis
- Feedback sammeln: Nutzer-Bewertungen für kontinuierliche Verbesserung
Zusammenfassung
RAG kombiniert die Stärken von Retrieval-Systemen mit generativen LLMs:
| Komponente | Funktion | Typisches Tool |
|---|---|---|
| Document Loader | Daten einlesen | TextLoader, PyPDFLoader |
| Text Splitter | Chunking | RecursiveCharacterTextSplitter |
| Embedding Model | Text → Vektor | OpenAIEmbeddings |
| Vector Store | Speicherung & Suche | ChromaDB, FAISS |
| Retriever | Relevante Chunks finden | as_retriever() |
| LLM | Antwort generieren | GPT-4o-mini |
Der typische Workflow:
1. Dokumente laden und chunken
↓
2. Embeddings erzeugen und speichern
↓
3. Retriever konfigurieren
↓
4. RAG-Prompt erstellen
↓
5. LCEL-Chain bauen
↓
6. Evaluieren und optimieren
RAG ermöglicht es, LLMs mit aktuellem, domänenspezifischem Wissen auszustatten – ohne teures Fine-Tuning und mit voller Kontrolle über die Wissensbasis.
Abgrenzung zu verwandten Dokumenten
| Dokument | Inhalt |
|---|---|
| Lohnt es sich überhaupt? | Wann RAG die richtige Wahl ist — und wann nicht |
| Evaluation & Testing | Wie Retrieval-Qualität, Faithfulness und Groundedness gemessen werden |
| State Management | Wie Retrieval-Ergebnisse im Graph-State weitergegeben werden |
Version: 1.0
Stand: November 2025
Kurs: KI-Agenten. Verstehen. Anwenden. Gestalten.