RAG (Retrieval-Augmented Generation) ist ein Architektur-Pattern, bei dem ein Sprachmodell zur Anfragezeit zuerst relevante Dokumente aus einer Wissensbasis sucht (Retrieval) und diese dann als Kontext für die Antwortgenerierung verwendet. So entstehen faktentreue Antworten auf Basis spezifischer Quellen.

Wozu braucht man RAG?

Damit ein LLM Antworten auf Basis aktueller oder firmenspezifischer Daten geben kann, die nicht in seinem Trainingsmaterial enthalten waren — beispielsweise interne Verträge, aktuelle Produktdaten oder ein firmeneigenes Wiki.

Welche Tools nutzt man für RAG?

Eine Kombination aus Vector-Datenbank (Pinecone, Weaviate, Qdrant, Supabase Vector), Embeddings-Modell (OpenAI text-embedding-3, Cohere Embed) und LLM zur Antwortgenerierung. Plus eine Pipeline für Dokumenten-Indexierung.

RAG (Retrieval-Augmented Generation)

RAG — KI mit externem Wissen

RAG (Retrieval-Augmented Generation) ist ein Architektur-Pattern, das ein Sprachmodell mit externem, anwendungsspezifischem Wissen verbindet. Statt sich nur auf das Trainingsmaterial des Modells zu verlassen, sucht das System zur Anfragezeit relevante Dokumente, übergibt sie als Kontext an das LLM und erzeugt darauf basierend die Antwort.

Das Ergebnis: faktentreue Antworten auf Basis spezifischer, aktueller oder firmeneigener Quellen — ohne ein eigenes Modell trainieren zu müssen.

Wie RAG funktioniert

1. Dokumenten-Indexierung (Offline-Phase)

Dokumente werden in semantische „Chunks" zerlegt (typisch 200–1000 Token pro Chunk).
Jeder Chunk wird durch ein Embeddings-Modell in einen Vektor übersetzt.
Vektoren landen in einer Vector-Datenbank, indiziert für schnelle Ähnlichkeitssuche.

2. Anfrage-Verarbeitung (Online-Phase)

Die Nutzer-Frage wird ebenfalls in einen Vektor übersetzt.
Vector-DB findet die k nächsten Nachbar-Chunks (typisch k = 3 bis 10).
Diese Chunks werden zusammen mit der Frage in den Prompt eingespielt.
LLM generiert die Antwort und kann auf die Quellen verweisen.

Typische Anwendungen

Internes Wissen — Chat über Firmenwiki, Verträge, Angebote, Protokolle.
Produkt-Dokumentation — Antworten auf Kunden-Anfragen basierend auf der eigenen Doku.
Recht und Compliance — präzise Antworten auf Basis der aktuellen Gesetzeslage.
Wissenschaftliche Recherche — Antworten mit Quellenangabe auf Basis eines Paper-Korpus.

Vorteile von RAG gegenüber Fine-Tuning

Aktualität: neue Dokumente sind in Minuten verfügbar, kein Re-Training nötig.
Transparenz: das System kann die genutzten Quellen-Chunks ausweisen.
Kosten: keine teuren Fine-Tuning-Läufe, nur laufende Embedding- und Inferenz-Kosten.
Datenschutz: sensitive Daten bleiben in der Vector-DB, nicht im Modell.

Wann RAG nicht reicht

Kreative Aufgaben: Wenn das LLM eigenes Wissen generieren soll, nicht externes wiedergeben.
Sehr lange Argumentationsketten: Bei hochkomplexen Anfragen reichen die abgerufenen Chunks oft nicht aus.
Strukturierte Datenabfragen: SQL- oder API-Calls sind hier präziser als RAG.