WISSEN

RAG (Retrieval-Augmented Generation)

RAG ist ein KI-Pattern, bei dem ein Sprachmodell zur Anfragezeit relevante externe Dokumente sucht und in seinen Antwort-Kontext einbindet — die Grundlage für Knowledge-Base-Bots, dokumentbasierte Suche und faktentreue KI-Antworten.

RAG — KI mit externem Wissen

RAG (Retrieval-Augmented Generation) ist ein Architektur-Pattern, das ein Sprachmodell mit externem, anwendungsspezifischem Wissen verbindet. Statt sich nur auf das Trainingsmaterial des Modells zu verlassen, sucht das System zur Anfragezeit relevante Dokumente, übergibt sie als Kontext an das LLM und erzeugt darauf basierend die Antwort.

Das Ergebnis: faktentreue Antworten auf Basis spezifischer, aktueller oder firmeneigener Quellen — ohne ein eigenes Modell trainieren zu müssen.

Wie RAG funktioniert

1. Dokumenten-Indexierung (Offline-Phase)

  • Dokumente werden in semantische „Chunks" zerlegt (typisch 200–1000 Token pro Chunk).
  • Jeder Chunk wird durch ein Embeddings-Modell in einen Vektor übersetzt.
  • Vektoren landen in einer Vector-Datenbank, indiziert für schnelle Ähnlichkeitssuche.

2. Anfrage-Verarbeitung (Online-Phase)

  • Die Nutzer-Frage wird ebenfalls in einen Vektor übersetzt.
  • Vector-DB findet die k nächsten Nachbar-Chunks (typisch k = 3 bis 10).
  • Diese Chunks werden zusammen mit der Frage in den Prompt eingespielt.
  • LLM generiert die Antwort und kann auf die Quellen verweisen.

Typische Anwendungen

  • Internes Wissen — Chat über Firmenwiki, Verträge, Angebote, Protokolle.
  • Produkt-Dokumentation — Antworten auf Kunden-Anfragen basierend auf der eigenen Doku.
  • Recht und Compliance — präzise Antworten auf Basis der aktuellen Gesetzeslage.
  • Wissenschaftliche Recherche — Antworten mit Quellenangabe auf Basis eines Paper-Korpus.

Vorteile von RAG gegenüber Fine-Tuning

  • Aktualität: neue Dokumente sind in Minuten verfügbar, kein Re-Training nötig.
  • Transparenz: das System kann die genutzten Quellen-Chunks ausweisen.
  • Kosten: keine teuren Fine-Tuning-Läufe, nur laufende Embedding- und Inferenz-Kosten.
  • Datenschutz: sensitive Daten bleiben in der Vector-DB, nicht im Modell.

Wann RAG nicht reicht

  • Kreative Aufgaben: Wenn das LLM eigenes Wissen generieren soll, nicht externes wiedergeben.
  • Sehr lange Argumentationsketten: Bei hochkomplexen Anfragen reichen die abgerufenen Chunks oft nicht aus.
  • Strukturierte Datenabfragen: SQL- oder API-Calls sind hier präziser als RAG.

Verwandte Begriffe

  • LLM — die Modell-Schicht in einem RAG-System.
  • KI-Workflow — RAG ist ein zentraler Baustein vieler Workflows.
FAQ

Häufige Fragen

RAG (Retrieval-Augmented Generation) ist ein Architektur-Pattern, bei dem ein Sprachmodell zur Anfragezeit zuerst relevante Dokumente aus einer Wissensbasis sucht (Retrieval) und diese dann als Kontext für die Antwortgenerierung verwendet. So entstehen faktentreue Antworten auf Basis spezifischer Quellen.