Embeddings
Vektorrepräsentationen von Text: Embedding-Modelle und Ähnlichkeitssuche
Inhaltsverzeichnis
- Was sind Embeddings?
- Wie entstehen Embeddings?
- Positional Encoding
- Embedding-Modelle
- Training von Embedding-Modellen
- Kombi: Embedding - Token - Chunk
- Warum sind Embeddings so wichtig?
Damit Künstliche Intelligenz (KI) sinnvoll mit Sprache, Bildern oder anderen Inhalten arbeiten kann, muss sie deren Bedeutung erfassen. Allerdings verarbeitet ein Computer keine Wörter oder Bilder direkt, sondern nur Zahlen. Embeddings sind eine Methode, um solche Inhalte als Zahlen zu kodieren, sodass die KI Zusammenhänge und Bedeutungen erkennen kann.
Was sind Embeddings?
Ein Embedding ist eine mathematische Darstellung eines Wortes, Satzes oder Bildes in Form eines Vektors, also einer Zahlenliste. Diese Zahlen erfassen Ähnlichkeiten und Zusammenhänge zwischen verschiedenen Konzepten.
Beispiel für Sprache:
- Das Wort „King“ könnte als Zahlenvektor [0.96, 0.92, 0.08, 0.67] dargestellt werden.
- Das Wort „Queen“ könnte [0.98, 0.07, 0.93, 0.71] haben.
- Das Wort „Girl“ könnte [0.56, 0.09, 0.91, 0.11] haben.
→ Die Zahlen von „King“ und „Queen“ sind ähnlicher als die von „Man“ und „Girl“. Dies zeigt, dass die KI die inhaltliche Nähe dieser Begriffe versteht.
Beispiel für Bilder:
- Ein Bild von einem Hund wird in Zahlen umgewandelt.
- Ein ähnliches Bild erhält einen ähnlichen Zahlenvektor.
- Dadurch kann die KI visuelle Ähnlichkeiten erkennen.
Embeddings werden nicht nur für Sprache und Bilder genutzt, sondern auch in Empfehlungssystemen für Musik, Filme oder sogar in der medizinischen Forschung zur Mustererkennung.
Hypothetisches Beispiel für die Embeddings:
| Merkmal | KÖNIG | KÖNIGIN | MANN | MÄDCHEN | PRINZ |
|---|---|---|---|---|---|
| Königtum | 0,96 | 0,98 | 0,05 | 0,05 | 0,95 |
| Männlichkeit | 0,92 | 0,07 | 0,90 | 0,09 | 0,85 |
| Weiblichkeit | 0,08 | 0,93 | 0,10 | 0,91 | 0,15 |
| Alter | 0,67 | 0,71 | 0,56 | 0,11 | 0,42 |
Wie entstehen Embeddings?
Embeddings werden mit künstlichen neuronalen Netzen oder statistischen Methoden erzeugt. Dabei durchläuft der Prozess mehrere Schritte:
- Daten sammeln
- Sprachmodelle nutzen große Mengen an Texten aus Büchern, Webseiten oder Artikeln.
- Bilderkennungsmodelle analysieren Millionen von Fotos mit passenden Beschreibungen.
- Musik- oder Videoplattformen sammeln Daten zu Nutzerverhalten und Inhaltsmerkmalen.
- Daten in Zahlen umwandeln
- Wörter werden als Vektoren dargestellt, die Bedeutungsähnlichkeiten widerspiegeln.
- Bilder werden in Pixelwerte und Merkmale wie Kanten oder Farben umgerechnet.
- Musik wird anhand von Frequenzmustern und Rhythmen analysiert.
- Neuronale Netze trainieren
- Modelle wie Word2Vec, GloVe oder FastText für Sprache sowie ResNet oder VGG für Bilder lernen, welche Begriffe oder Objekte ähnlich sind.
- Empfehlungssysteme analysieren, welche Songs oder Filme Nutzer häufig zusammen konsumieren.
- Ähnlichkeiten erkennen
- Begriffe mit ähnlicher Bedeutung liegen im Zahlenraum nahe beieinander.
- Beispiel: Das Embedding für „König“ liegt näher an „Königin“ als an „Banane“.
- Bilder von Hunden liegen näher an Wölfen als an Autos.
- Feinabstimmung (Fine-Tuning)
- Embeddings können für spezifische Anwendungen optimiert werden.
- Beispiel: Eine KI für medizinische Analysen trainiert spezielle Embeddings für Fachbegriffe.
- Streaming-Dienste passen ihre Embeddings an individuelle Nutzerpräferenzen an.
Positional Encoding
Die Positionskodierung fügt jedem Token-Vektor (aus der Einbettungsmatrix) Informationen über seine Position in der Sequenz hinzu. Dies geschieht durch die Kombination von Positionsinformationen und den ursprünglichen Token-Einbettungen. Ohne zusätzliche Information gäbe es keinen Unterschied zwischen:
- Die Katze jagt den Hund und
- Den Hund jagt die Katze
Die Positionskodierung ist wie ein kleiner Hinweiszettel, der sagt, welches Wort an welcher Stelle steht.
Embedding-Modelle
Es gibt verschiedene Einbettungsmodelle wie Word2Vec, GloVe und FastText für Wortrepräsentationen, BERT für kontextuelle Einbettungen sowie Node2Vec und LSTM-basierte Modelle für Netzwerke und Sequenzen, die jeweils auf spezifische Anwendungsfälle und Datenstrukturen optimiert sind.
Übersicht Einbettungsmodelle:
| Einbettungsvektor | Typische Größen | Einsatzbereich |
|---|---|---|
| Word2Vec | 100-300 Dimensionen | Wort- und Satzähnlichkeiten, NLP |
| GloVe | 50, 100, 200, 300 Dimensionen | Semantische Wortbeziehungen, NLP |
| FastText | 100-300 Dimensionen | OOV-Wortbehandlung, NLP |
| BERT (Basisversion) | 768 Dimensionen | Kontextuelle Textverarbeitung, NLP |
| BERT (Large-Version) | 1024 Dimensionen | Fortgeschrittene NLP-Anwendungen |
| text-embedding-ada-002 (OpenAI) | 1536 Dimensionen | Hochqualitative semantische Suche, RAG |
| sentence-transformers | 384-768 Dimensionen (modellabhängig) | Semantische Ähnlichkeit, Clustering, RAG |
| Benutzer- und Produkteinbettungen | 50-200 Dimensionen | Empfehlungssysteme, Personalisierung |
| Einbettungen aus CNNs (VGG16) | 4096 Dimensionen (für FC-Schichten) | Bildverarbeitung, Objekterkennung |
| Einbettungen aus CNNs (ResNet) | Variiert (tiefer mit unterschiedlichen Größen) | Bildanalyse, Feature-Extraktion |
| Node2Vec | 64-256 Dimensionen | Graphenanalysen, soziale Netzwerke |
| LSTM-basierte Sequenzeinbettungen | 50-500 Dimensionen | Zeitreihen, Sprachmodellierung, NLP |
Training von Embedding-Modellen
Das Training von Embedding-Modellen wie Word2Vec basiert auf der Idee, dass Wörter, die in ähnlichen Kontexten vorkommen, ähnliche Bedeutungen haben. Hier wird detaillierter beschrieben, wie dieses Prinzip im Training umgesetzt wird:
Algorithmus-Auswahl
Word2Vec bietet zwei grundlegende Modelle zur Generierung von Wort-Embeddings:
- CBOW (Continuous Bag of Words): Hierbei wird das Zielwort basierend auf einem umgebenden Wortkontext vorhergesagt. Das Modell bekommt mehrere Wörter als Eingabe (den Kontext) und versucht, das Wort in der Mitte (das Zielwort) zu vorherzusagen.
- Skip-Gram: Hier wird der umgekehrte Ansatz verfolgt. Ausgehend von einem Zielwort versucht das Modell, die umgebenden Kontextwörter vorherzusagen.
Training
Das Training von Word2Vec kann wie folgt zusammengefasst werden:
- Initialisierung: Zuerst werden Vektoren für jedes Wort zufällig initialisiert.
- Durchlauf durch den Korpus: Das Modell geht durch den gesamten Textkorpus, nimmt jedes Wort zusammen mit seinen Nachbarwörtern (innerhalb eines bestimmten Fensters) und führt Trainingsiterationen durch.
- Verlustfunktion: Die Hauptaufgabe beim Training ist die Optimierung der Verlustfunktion. Für CBOW und Skip-Gram wird oft eine Funktion verwendet, die die logarithmische Wahrscheinlichkeit maximiert, korrekte Wörter basierend auf ihren Kontexten vorherzusagen.
- Bei CBOW wird der Verlust berechnet, indem die Differenz zwischen dem vorhergesagten Zielwort und dem tatsächlichen Zielwort über die Softmax-Funktion gemessen wird.
- Beim Skip-Gram wird der Verlust für jedes vorhergesagte Kontextwort berechnet.
- Backpropagation: Mit Hilfe des Gradientenabstiegs oder ähnlicher Optimierungsalgorithmen werden die Gewichte (Wortvektoren) so angepasst, dass die Verlustfunktion minimiert wird. Dies bedeutet, dass die Wortvektoren nach und nach angepasst werden, um den wahren Kontext besser widerzuspiegeln.
Ergebnis
Das Ergebnis des Trainings ist ein Set von Vektoren, eines für jedes Wort im Vokabular. Wörter, die in ähnlichen Kontexten vorkommen, enden nahe beieinander im Vektorraum, was ihre semantische Ähnlichkeit widerspiegelt. Diese Vektoren können dann in verschiedenen nachgelagerten maschinellen Lernaufgaben verwendet werden, z.B. in der Sentiment-Analyse, bei der Klassifikation von Dokumenten oder anderen NLP-Aufgaben, die eine numerische Repräsentation von Text erfordern.
Evaluierung
Um die Qualität der Embeddings zu überprüfen, werden oft qualitative Tests wie die Suche nach den nächsten Nachbarn (ähnliche Wörter finden) oder quantitative Benchmarks (z.B. auf Datensätzen für analoge Aufgaben) durchgeführt. Diese Evaluierungen helfen dabei festzustellen, ob das Modell die Wortbedeutungen effektiv erfasst hat.
Kombi: Embedding - Token - Chunk
Hier ist eine tabellarische Übersicht, die ausgehend vom Embedding-Modell zeigt, welche Tokenizer und Chunking-Strategien zulässig oder üblich sind
| Embeddingmodell | Zulässiger Tokenizer | Empfohlene Chunking-Strategie |
|---|---|---|
text-embedding-ada-002 | tiktoken.encoding_for_model("text-embedding-ada-002") | Chunking nach max. 8191 Tokens (z. B. 800–1000 Tokens pro Chunk mit Puffer) |
text-embedding-3-small | tiktoken.encoding_for_model("text-embedding-3-small") | Max. 8192 Tokens pro Chunk Empfohlen: 512–2048 Tokens |
text-embedding-3-large | tiktoken.encoding_for_model("text-embedding-3-large") | Bis zu 8192 Tokens, optimal gestückelt nach thematischen Abschnitten |
all-MiniLM-L6-v2 | transformers.AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2") | Max. 384 Tokens (modellabhängig) BERT-kompatible Chunking mit Overlap |
sentence-transformers/... | transformers.AutoTokenizer.from_pretrained(...) | Chunking nach Max Token Length des jeweiligen Modells (oft 384–512 Tokens) |
e5-base-v2 | transformers.AutoTokenizer.from_pretrained("intfloat/e5-base-v2") | Max. 512 Tokens ggf. Split mit Overlap, um Kontext zu erhalten |
Warum sind Embeddings so wichtig?
- Sprachverarbeitung: Chatbots, Übersetzungen und Textanalysen basieren auf Embeddings.
- Bilderkennung: KI kann ähnliche Bilder oder Objekte erkennen.
- Suche & Empfehlungssysteme: Personalisierte Vorschläge auf Plattformen wie Netflix, Spotify oder YouTube nutzen Embeddings.
- Musik- und Videovorschläge: Streaming-Dienste berechnen Nutzerpräferenzen basierend auf Embeddings.
- Medizinische Diagnosen: KI analysiert Krankheitsbilder und medizinische Muster durch Embeddings.
- Generative KI: Sprachmodelle wie ChatGPT nutzen Embeddings, um kontextbezogene Antworten zu generieren.
[!NOTE] Fazit
Embeddings sind ein zentrales Konzept in der modernen KI. Sie ermöglichen Maschinen, Bedeutungen zu erfassen, Muster zu erkennen und personalisierte Inhalte zu liefern. Ohne Embeddings wären viele heutige KI-Technologien nicht denkbar – von Chatbots über Bilderkennung bis hin zu Streaming-Diensten. Sie sind das unsichtbare Gerüst, das intelligente Systeme erst möglich macht. —
Abgrenzung zu verwandten Dokumenten
| Dokument | Frage |
|---|---|
| Tokenizing & Chunking | Wie wird Rohtext so vorbereitet, dass Embeddings später sinnvoll berechnet werden können? |
| RAG-Konzepte | Wie werden Embeddings praktisch in Retrieval-Systemen genutzt? |
| Multimodal Bild | Wie werden Vektorähnlichkeiten jenseits von reinem Text relevant? |
Version: 1.0
Stand: November 2025
Kurs: Generative KI. Verstehen. Anwenden. Gestalten.