Übersicht

Die Wissensdatenbank ermöglicht es Ihnen, Ihre Dokumente hochzuladen, zu verarbeiten und mit intelligenter Vektorsuche und Chunking zu durchsuchen. Dokumente verschiedener Typen werden automatisch verarbeitet, eingebettet und durchsuchbar gemacht. Ihre Dokumente werden intelligent in Chunks aufgeteilt, und Sie können sie mit natürlichsprachlichen Abfragen anzeigen, bearbeiten und durchsuchen.

Upload und Verarbeitung

Laden Sie einfach Ihre Dokumente hoch, um zu beginnen. Sim verarbeitet sie automatisch im Hintergrund, extrahiert Text, erstellt Embeddings und teilt sie in durchsuchbare Chunks auf.

Das System übernimmt den gesamten Verarbeitungsprozess für Sie:

Textextraktion: Inhalte werden aus Ihren Dokumenten mit spezialisierten Parsern für jeden Dateityp extrahiert
Intelligentes Chunking: Dokumente werden in sinnvolle Chunks mit konfigurierbarer Größe und Überlappung aufgeteilt
Embedding-Generierung: Vektoreinbettungen werden für semantische Suchfunktionen erstellt
Verarbeitungsstatus: Verfolgen Sie den Fortschritt während Ihre Dokumente verarbeitet werden

Unterstützte Dateitypen

Sim unterstützt PDF, Word (DOC/DOCX), Klartext (TXT), Markdown (MD), HTML, Excel (XLS/XLSX), PowerPoint (PPT/PPTX) und CSV-Dateien. Dateien können bis zu 100MB groß sein, wobei die optimale Leistung bei Dateien unter 50MB liegt. Sie können mehrere Dokumente gleichzeitig hochladen, und PDF-Dateien werden mit OCR-Verarbeitung für gescannte Dokumente unterstützt.

Anzeigen und Bearbeiten von Chunks

Sobald Ihre Dokumente verarbeitet sind, können Sie die einzelnen Chunks anzeigen und bearbeiten. Dies gibt Ihnen volle Kontrolle darüber, wie Ihre Inhalte organisiert und durchsucht werden.

Chunk-Konfiguration

Beim Erstellen einer Wissensdatenbank können Sie konfigurieren, wie Dokumente in Chunks aufgeteilt werden:

Einstellung	Einheit	Standard	Bereich	Beschreibung
Maximale Chunk-Größe	Tokens	1.024	100-4.000	Maximale Größe jedes Chunks (1 Token ≈ 4 Zeichen)
Minimale Chunk-Größe	Zeichen	1	1-2.000	Minimale Chunk-Größe, um winzige Fragmente zu vermeiden
Überlappung	Zeichen	200	0-500	Kontextüberlappung zwischen aufeinanderfolgenden Chunks

Hierarchische Aufteilung: Berücksichtigt die Dokumentstruktur (Abschnitte, Absätze, Sätze)

Bearbeitungsmöglichkeiten

Chunk-Inhalt bearbeiten: Textinhalt einzelner Chunks ändern
Chunk-Grenzen anpassen: Chunks nach Bedarf zusammenführen oder aufteilen
Metadaten hinzufügen: Chunks mit zusätzlichem Kontext anreichern
Massenoperationen: Mehrere Chunks effizient verwalten

Erweiterte PDF-Verarbeitung

Für PDF-Dokumente bietet Sim erweiterte Verarbeitungsfunktionen:

OCR-Unterstützung

Wenn mit Azure oder Mistral OCR konfiguriert:

Verarbeitung gescannter Dokumente: Text aus bildbasierten PDFs extrahieren
Verarbeitung gemischter Inhalte: PDFs mit Text und Bildern verarbeiten
Hohe Genauigkeit: Fortschrittliche KI-Modelle gewährleisten präzise Textextraktion

Verwendung des Knowledge-Blocks in Workflows

Sobald Ihre Dokumente verarbeitet sind, können Sie sie in Ihren KI-Workflows über den Knowledge-Block verwenden. Dies ermöglicht Retrieval-Augmented Generation (RAG), wodurch Ihre KI-Agenten auf Ihre Dokumentinhalte zugreifen und darüber nachdenken können, um genauere, kontextbezogene Antworten zu liefern.

Knowledge-Block-Funktionen

Semantische Suche: Relevante Inhalte mithilfe natürlichsprachlicher Abfragen finden
Kontextintegration: Relevante Chunks automatisch in Agenten-Prompts einbinden
Dynamisches Abrufen: Suche erfolgt in Echtzeit während der Workflow-Ausführung
Relevanz-Bewertung: Ergebnisse nach semantischer Ähnlichkeit sortiert

Integrationsoptionen

System-Prompts: Stellen Sie Ihren KI-Agenten Kontext bereit
Dynamischer Kontext: Suchen und fügen Sie relevante Informationen während Konversationen hinzu
Multi-Dokument-Suche: Durchsuchen Sie Ihre gesamte Wissensdatenbank
Gefilterte Suche: Kombinieren Sie mit Tags für präzises Abrufen von Inhalten

Vektor-Suchtechnologie

Sim verwendet Vektorsuche, die von pgvector unterstützt wird, um die Bedeutung und den Kontext Ihrer Inhalte zu verstehen:

Semantisches Verständnis

Kontextuelle Suche: Findet relevante Inhalte, auch wenn exakte Schlüsselwörter nicht übereinstimmen
Konzeptbasiertes Abrufen: Versteht Beziehungen zwischen Ideen
Mehrsprachige Unterstützung: Funktioniert über verschiedene Sprachen hinweg
Synonymerkennung: Findet verwandte Begriffe und Konzepte

Suchfunktionen

Natürlichsprachige Abfragen: Stellen Sie Fragen in einfachem Deutsch
Ähnlichkeitssuche: Finden Sie konzeptionell ähnliche Inhalte
Hybride Suche: Kombiniert Vektor- und traditionelle Schlüsselwortsuche
Konfigurierbare Ergebnisse: Steuern Sie die Anzahl und Relevanzschwelle der Ergebnisse

Dokumentenverwaltung

Organisationsfunktionen

Massen-Upload: Laden Sie mehrere Dateien gleichzeitig über die asynchrone API hoch
Verarbeitungsstatus: Echtzeit-Updates zur Dokumentenverarbeitung
Suchen und filtern: Finden Sie Dokumente schnell in großen Sammlungen
Metadaten-Tracking: Automatische Erfassung von Dateiinformationen und Verarbeitungsdetails

Sicherheit und Datenschutz

Sichere Speicherung: Dokumente werden mit Sicherheit auf Unternehmensniveau gespeichert
Zugriffskontrolle: Workspace-basierte Berechtigungen
Verarbeitungsisolierung: Jeder Workspace hat isolierte Dokumentenverarbeitung
Datenaufbewahrung: Konfigurieren Sie Richtlinien zur Dokumentenaufbewahrung

Erste Schritte

Navigieren Sie zu Ihrer Wissensdatenbank: Zugriff über Ihre Workspace-Seitenleiste
Dokumente hochladen: Ziehen und ablegen oder Dateien zum Hochladen auswählen
Verarbeitung überwachen: Beobachten Sie, wie Dokumente verarbeitet und in Abschnitte unterteilt werden
Abschnitte erkunden: Zeigen Sie die verarbeiteten Inhalte an und bearbeiten Sie sie
Zu Workflows hinzufügen: Verwenden Sie den Knowledge-Block, um mit Ihren KI-Agenten zu integrieren

Die Wissensdatenbank verwandelt Ihre statischen Dokumente in eine intelligente, durchsuchbare Ressource, die Ihre KI-Workflows für fundiertere und kontextbezogene Antworten nutzen können.

Übersicht

On this page