Sim

Base de connaissances

La base de connaissances vous permet de tĂ©lĂ©charger, traiter et rechercher vos documents grĂące Ă  une recherche vectorielle intelligente et au dĂ©coupage en segments. Les documents de diffĂ©rents types sont automatiquement traitĂ©s, intĂ©grĂ©s et rendus consultables. Vos documents sont intelligemment segmentĂ©s, et vous pouvez les visualiser, les modifier et les rechercher Ă  l'aide de requĂȘtes en langage naturel.

Téléchargement et traitement

Il vous suffit de télécharger vos documents pour commencer. Sim les traite automatiquement en arriÚre-plan, extrayant le texte, créant des embeddings et les divisant en segments consultables.

Le systĂšme gĂšre l'ensemble du processus de traitement pour vous :

  1. Extraction de texte : Le contenu est extrait de vos documents à l'aide d'analyseurs spécialisés pour chaque type de fichier
  2. Segmentation intelligente : Les documents sont divisés en segments significatifs avec une taille et un chevauchement configurables
  3. Génération d'embeddings : Des embeddings vectoriels sont créés pour les capacités de recherche sémantique
  4. État du traitement : Suivez la progression du traitement de vos documents

Types de fichiers pris en charge

Sim prend en charge les fichiers PDF, Word (DOC/DOCX), texte brut (TXT), Markdown (MD), HTML, Excel (XLS/XLSX), PowerPoint (PPT/PPTX) et CSV. Les fichiers peuvent atteindre jusqu'à 100 Mo chacun, avec des performances optimales pour les fichiers de moins de 50 Mo. Vous pouvez télécharger plusieurs documents simultanément, et les fichiers PDF bénéficient d'un traitement OCR pour les documents numérisés.

Visualisation et modification des segments

Une fois vos documents traités, vous pouvez visualiser et modifier les segments individuels. Cela vous donne un contrÎle total sur l'organisation et la recherche de votre contenu.

Vue des segments de document montrant le contenu traité

Configuration des fragments

  • Taille par dĂ©faut des fragments : 1 024 caractĂšres
  • Plage configurable : 100 Ă  4 000 caractĂšres par fragment
  • Chevauchement intelligent : 200 caractĂšres par dĂ©faut pour prĂ©server le contexte
  • DĂ©coupage hiĂ©rarchique : respecte la structure du document (sections, paragraphes, phrases)

Capacités d'édition

  • Modifier le contenu des fragments : modifier le contenu textuel des fragments individuels
  • Ajuster les limites des fragments : fusionner ou diviser les fragments selon les besoins
  • Ajouter des mĂ©tadonnĂ©es : enrichir les fragments avec du contexte supplĂ©mentaire
  • OpĂ©rations en masse : gĂ©rer efficacement plusieurs fragments

Traitement avancé des PDF

Pour les documents PDF, Sim offre des capacités de traitement améliorées :

Support OCR

Lorsque configuré avec Azure ou Mistral OCR :

  • Traitement de documents numĂ©risĂ©s : extraction de texte Ă  partir de PDF basĂ©s sur des images
  • Gestion de contenu mixte : traitement des PDF contenant Ă  la fois du texte et des images
  • Haute prĂ©cision : les modĂšles d'IA avancĂ©s assurent une extraction prĂ©cise du texte

Utilisation du bloc de connaissances dans les flux de travail

Une fois vos documents traités, vous pouvez les utiliser dans vos flux de travail d'IA grùce au bloc de connaissances. Cela permet la génération augmentée par récupération (RAG), permettant à vos agents IA d'accéder et de raisonner sur le contenu de vos documents pour fournir des réponses plus précises et contextuelles.

Utilisation du bloc de connaissances dans les flux de travail

Fonctionnalités du bloc de connaissances

  • Recherche sĂ©mantique : trouver du contenu pertinent Ă  l'aide de requĂȘtes en langage naturel
  • IntĂ©gration du contexte : inclure automatiquement les fragments pertinents dans les prompts des agents
  • RĂ©cupĂ©ration dynamique : la recherche s'effectue en temps rĂ©el pendant l'exĂ©cution du flux de travail
  • Évaluation de la pertinence : rĂ©sultats classĂ©s par similaritĂ© sĂ©mantique

Options d'intégration

  • Prompts systĂšme : fournir du contexte Ă  vos agents IA
  • Contexte dynamique : rechercher et inclure des informations pertinentes pendant les conversations
  • Recherche multi-documents : interroger l'ensemble de votre base de connaissances
  • Recherche filtrĂ©e : combiner avec des tags pour une rĂ©cupĂ©ration prĂ©cise du contenu

Technologie de recherche vectorielle

Sim utilise la recherche vectorielle alimentée par pgvector pour comprendre le sens et le contexte de votre contenu :

Compréhension sémantique

  • Recherche contextuelle : trouve du contenu pertinent mĂȘme lorsque les mots-clĂ©s exacts ne correspondent pas
  • RĂ©cupĂ©ration basĂ©e sur les concepts : comprend les relations entre les idĂ©es
  • Prise en charge multilingue : fonctionne dans diffĂ©rentes langues
  • Reconnaissance des synonymes : trouve des termes et concepts associĂ©s

Capacités de recherche

  • RequĂȘtes en langage naturel : posez des questions en français courant
  • Recherche par similaritĂ© : trouvez du contenu conceptuellement similaire
  • Recherche hybride : combine la recherche vectorielle et la recherche traditionnelle par mots-clĂ©s
  • RĂ©sultats configurables : contrĂŽlez le nombre et le seuil de pertinence des rĂ©sultats

Gestion documentaire

Fonctionnalités d'organisation

  • TĂ©lĂ©chargement en masse : tĂ©lĂ©chargez plusieurs fichiers Ă  la fois via l'API asynchrone
  • État de traitement : mises Ă  jour en temps rĂ©el sur le traitement des documents
  • Recherche et filtrage : trouvez rapidement des documents dans de grandes collections
  • Suivi des mĂ©tadonnĂ©es : capture automatique des informations de fichier et des dĂ©tails de traitement

Sécurité et confidentialité

  • Stockage sĂ©curisĂ© : documents stockĂ©s avec une sĂ©curitĂ© de niveau entreprise
  • ContrĂŽle d'accĂšs : autorisations basĂ©es sur l'espace de travail
  • Isolation du traitement : chaque espace de travail dispose d'un traitement de documents isolĂ©
  • Conservation des donnĂ©es : configurez les politiques de conservation des documents

Premiers pas

  1. Accédez à votre base de connaissances : accessible depuis la barre latérale de votre espace de travail
  2. Téléchargez des documents : glissez-déposez ou sélectionnez des fichiers à télécharger
  3. Surveillez le traitement : observez le traitement et le découpage des documents
  4. Explorez les fragments : visualisez et modifiez le contenu traité
  5. Ajoutez aux flux de travail : utilisez le bloc Connaissances pour l'intégrer à vos agents IA

La base de connaissances transforme vos documents statiques en une ressource intelligente et consultable que vos flux de travail IA peuvent exploiter pour des réponses plus informées et contextuelles.

Base de connaissances