Warum Konsistente Daten der Schlüssel zu hervorragenden Bot-Antworten sind
September 2025
Das aktuelle RheinInsights Retrieval Suite Release bietet nun Algorithmen für Deep Research. Wir nutzen hierbei das Zusammenspiel zwischen Sprachmodell und Vektorsuche um iterativ die besten Ergebnisse für die Anfrage des Nutzenden zu errechnen. Aber warum funktioniert der Ansatz so gut?

Konsistente Daten im Suchindex
Unsere Konnektoren verwenden ein einheitliches Indexschema. Dies bedeutet, dass schon beim Auslesen der Daten aus den Quellsystemen die Anforderungen des Indexschemas berücksichtigt werden. Sprich, schon beim Crawlen des Quellsystems werden die Felder mit konsistenten Daten befüllt.
So wird das Titelfeld im Index für Jira Issues mit dem Subject befüllt, für SharePoint Dokumente mit dem extrahierten Titel des Dokuments, für Webseiten mit dem Title-Tag oder als Fallback mit dem Dateinamen. Das gleiche gilt für das Autoren-Feld, für das Änderungsdatum und vieles mehr. Zudem sind die Dateitypen homogenisiert und festgelegt.
Deep Research
Auf dieser Basis kann die KI dann beim Suchen von Antworten leicht die richtigen Entscheidungen treffen.
Zum Beispiel kann im Vorfeld die KI entscheiden, welche Dateitypen für die Suchanfrage in Frage kommen und welche nicht. So sind Verträge immer als PDF, Word oder als Word-ähnliche-Dokument abgelegt (aber nicht als Quellcode-Datei oder Webseite). Dokumentationen sind aber Wiki-Seiten, Webseiten oder ähnliches.
So können also direkt die richtigen Filter angewandt werden um die Präzision der Ergebnisse zu erhöhen. Gleichsam nutzen wir Mechanismen um die Abfrage aufzuweiten um den Recall zu erhöhen.
In der Kombination kann die KI dann entscheiden, ob die erste Welle an Dokumenten die Suchabfrage schon beantwortet oder ob die Suche erweitert werden muss um erst weiteren Kontext zu sammeln und in einem weiteren Anlauf die Anfrage zu beantworten.