Sim

Übersicht

Laden Sie Ihre Dokumente hoch, verarbeiten und durchsuchen Sie sie mit intelligenter Vektorsuche und Chunking

Die Wissensdatenbank ermöglicht es Ihnen, Ihre Dokumente hochzuladen, zu verarbeiten und mit intelligenter Vektorsuche und Chunking zu durchsuchen. Dokumente verschiedener Typen werden automatisch verarbeitet, eingebettet und durchsuchbar gemacht. Ihre Dokumente werden intelligent in Chunks aufgeteilt, und Sie können sie mit natürlichsprachlichen Abfragen anzeigen, bearbeiten und durchsuchen.

Upload und Verarbeitung

Laden Sie einfach Ihre Dokumente hoch, um zu beginnen. Sim verarbeitet sie automatisch im Hintergrund, extrahiert Text, erstellt Embeddings und teilt sie in durchsuchbare Chunks auf.

Das System übernimmt den gesamten Verarbeitungsprozess für Sie:

  1. Textextraktion: Inhalte werden aus Ihren Dokumenten mit spezialisierten Parsern für jeden Dateityp extrahiert
  2. Intelligentes Chunking: Dokumente werden in sinnvolle Chunks mit konfigurierbarer Größe und Überlappung aufgeteilt
  3. Embedding-Generierung: Vektoreinbettungen werden für semantische Suchfunktionen erstellt
  4. Verarbeitungsstatus: Verfolgen Sie den Fortschritt während Ihre Dokumente verarbeitet werden

Unterstützte Dateitypen

Sim unterstützt PDF, Word (DOC/DOCX), Klartext (TXT), Markdown (MD), HTML, Excel (XLS/XLSX), PowerPoint (PPT/PPTX) und CSV-Dateien. Dateien können bis zu 100MB groß sein, wobei die optimale Leistung bei Dateien unter 50MB liegt. Sie können mehrere Dokumente gleichzeitig hochladen, und PDF-Dateien werden mit OCR-Verarbeitung für gescannte Dokumente unterstützt.

Anzeigen und Bearbeiten von Chunks

Sobald Ihre Dokumente verarbeitet sind, können Sie die einzelnen Chunks anzeigen und bearbeiten. Dies gibt Ihnen volle Kontrolle darüber, wie Ihre Inhalte organisiert und durchsucht werden.

Dokumentchunk-Ansicht mit verarbeiteten Inhalten

Chunk-Konfiguration

Beim Erstellen einer Wissensdatenbank können Sie konfigurieren, wie Dokumente in Chunks aufgeteilt werden:

EinstellungEinheitStandardBereichBeschreibung
Maximale Chunk-GrößeTokens1.024100-4.000Maximale Größe jedes Chunks (1 Token ≈ 4 Zeichen)
Minimale Chunk-GrößeZeichen11-2.000Minimale Chunk-Größe, um winzige Fragmente zu vermeiden
ÜberlappungZeichen2000-500Kontextüberlappung zwischen aufeinanderfolgenden Chunks
  • Hierarchische Aufteilung: Berücksichtigt die Dokumentstruktur (Abschnitte, Absätze, Sätze)

Bearbeitungsmöglichkeiten

  • Chunk-Inhalt bearbeiten: Textinhalt einzelner Chunks ändern
  • Chunk-Grenzen anpassen: Chunks nach Bedarf zusammenführen oder aufteilen
  • Metadaten hinzufügen: Chunks mit zusätzlichem Kontext anreichern
  • Massenoperationen: Mehrere Chunks effizient verwalten

Erweiterte PDF-Verarbeitung

Für PDF-Dokumente bietet Sim erweiterte Verarbeitungsfunktionen:

OCR-Unterstützung

Wenn mit Azure oder Mistral OCR konfiguriert:

  • Verarbeitung gescannter Dokumente: Text aus bildbasierten PDFs extrahieren
  • Verarbeitung gemischter Inhalte: PDFs mit Text und Bildern verarbeiten
  • Hohe Genauigkeit: Fortschrittliche KI-Modelle gewährleisten präzise Textextraktion

Verwendung des Knowledge-Blocks in Workflows

Sobald Ihre Dokumente verarbeitet sind, können Sie sie in Ihren KI-Workflows über den Knowledge-Block verwenden. Dies ermöglicht Retrieval-Augmented Generation (RAG), wodurch Ihre KI-Agenten auf Ihre Dokumentinhalte zugreifen und darüber nachdenken können, um genauere, kontextbezogene Antworten zu liefern.

Verwendung des Knowledge-Blocks in Workflows

Knowledge-Block-Funktionen

  • Semantische Suche: Relevante Inhalte mithilfe natürlichsprachlicher Abfragen finden
  • Kontextintegration: Relevante Chunks automatisch in Agenten-Prompts einbinden
  • Dynamisches Abrufen: Suche erfolgt in Echtzeit während der Workflow-Ausführung
  • Relevanz-Bewertung: Ergebnisse nach semantischer Ähnlichkeit sortiert

Integrationsoptionen

  • System-Prompts: Stellen Sie Ihren KI-Agenten Kontext bereit
  • Dynamischer Kontext: Suchen und fügen Sie relevante Informationen während Konversationen hinzu
  • Multi-Dokument-Suche: Durchsuchen Sie Ihre gesamte Wissensdatenbank
  • Gefilterte Suche: Kombinieren Sie mit Tags für präzises Abrufen von Inhalten

Vektor-Suchtechnologie

Sim verwendet Vektorsuche, die von pgvector unterstützt wird, um die Bedeutung und den Kontext Ihrer Inhalte zu verstehen:

Semantisches Verständnis

  • Kontextuelle Suche: Findet relevante Inhalte, auch wenn exakte Schlüsselwörter nicht übereinstimmen
  • Konzeptbasiertes Abrufen: Versteht Beziehungen zwischen Ideen
  • Mehrsprachige Unterstützung: Funktioniert über verschiedene Sprachen hinweg
  • Synonymerkennung: Findet verwandte Begriffe und Konzepte

Suchfunktionen

  • Natürlichsprachige Abfragen: Stellen Sie Fragen in einfachem Deutsch
  • Ähnlichkeitssuche: Finden Sie konzeptionell ähnliche Inhalte
  • Hybride Suche: Kombiniert Vektor- und traditionelle Schlüsselwortsuche
  • Konfigurierbare Ergebnisse: Steuern Sie die Anzahl und Relevanzschwelle der Ergebnisse

Dokumentenverwaltung

Organisationsfunktionen

  • Massen-Upload: Laden Sie mehrere Dateien gleichzeitig über die asynchrone API hoch
  • Verarbeitungsstatus: Echtzeit-Updates zur Dokumentenverarbeitung
  • Suchen und filtern: Finden Sie Dokumente schnell in großen Sammlungen
  • Metadaten-Tracking: Automatische Erfassung von Dateiinformationen und Verarbeitungsdetails

Sicherheit und Datenschutz

  • Sichere Speicherung: Dokumente werden mit Sicherheit auf Unternehmensniveau gespeichert
  • Zugriffskontrolle: Workspace-basierte Berechtigungen
  • Verarbeitungsisolierung: Jeder Workspace hat isolierte Dokumentenverarbeitung
  • Datenaufbewahrung: Konfigurieren Sie Richtlinien zur Dokumentenaufbewahrung

Erste Schritte

  1. Navigieren Sie zu Ihrer Wissensdatenbank: Zugriff über Ihre Workspace-Seitenleiste
  2. Dokumente hochladen: Ziehen und ablegen oder Dateien zum Hochladen auswählen
  3. Verarbeitung überwachen: Beobachten Sie, wie Dokumente verarbeitet und in Abschnitte unterteilt werden
  4. Abschnitte erkunden: Zeigen Sie die verarbeiteten Inhalte an und bearbeiten Sie sie
  5. Zu Workflows hinzufügen: Verwenden Sie den Knowledge-Block, um mit Ihren KI-Agenten zu integrieren

Die Wissensdatenbank verwandelt Ihre statischen Dokumente in eine intelligente, durchsuchbare Ressource, die Ihre KI-Workflows für fundiertere und kontextbezogene Antworten nutzen können.

On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started