Sim

Mistral Parser

Extraire du texte Ă  partir de documents PDF

L'outil Mistral Parse offre un moyen puissant d'extraire et de traiter le contenu des documents PDF en utilisant l'API OCR de Mistral. Cet outil exploite la reconnaissance optique de caractÚres avancée pour extraire avec précision le texte et la structure des fichiers PDF, facilitant ainsi l'intégration des données documentaires dans vos flux de travail d'agents.

Avec l'outil Mistral Parse, vous pouvez :

  • Extraire du texte des PDF : convertir avec prĂ©cision le contenu PDF en formats texte, markdown ou JSON
  • Traiter les PDF Ă  partir d'URL : extraire directement le contenu des PDF hĂ©bergĂ©s en ligne en fournissant leurs URL
  • Conserver la structure du document : prĂ©server la mise en forme, les tableaux et la disposition des PDF originaux
  • Extraire des images : inclure optionnellement les images intĂ©grĂ©es dans les PDF
  • SĂ©lectionner des pages spĂ©cifiques : traiter uniquement les pages dont vous avez besoin dans les documents multi-pages

L'outil Mistral Parse est particuliĂšrement utile dans les scĂ©narios oĂč vos agents doivent travailler avec du contenu PDF, comme l'analyse de rapports, l'extraction de donnĂ©es de formulaires ou le traitement de texte Ă  partir de documents numĂ©risĂ©s. Il simplifie le processus de mise Ă  disposition du contenu PDF pour vos agents, leur permettant de travailler avec les informations stockĂ©es dans les PDF aussi facilement qu'avec une saisie de texte directe.

Instructions d'utilisation

Extrayez le texte et la structure des documents PDF en utilisant l'API OCR de Mistral. Saisissez une URL vers un document PDF ou tĂ©lĂ©chargez directement un fichier PDF. Configurez les options de traitement et obtenez le contenu dans votre format prĂ©fĂ©rĂ©. Pour les URL, elles doivent ĂȘtre accessibles publiquement et pointer vers un fichier PDF valide. Remarque : les liens Google Drive, Dropbox et autres services de stockage cloud ne sont pas pris en charge ; utilisez plutĂŽt une URL de tĂ©lĂ©chargement direct depuis un serveur web.

Outils

mistral_parser

Analyser des documents PDF avec l'API OCR de Mistral

Entrée

ParamĂštreTypeObligatoireDescription
filePathchaĂźneOuiURL vers un document PDF Ă  traiter
fileUploadobjetNonDonnées de téléchargement de fichier provenant du composant de téléchargement de fichier
resultTypechaßneNonType de résultat analysé (markdown, texte ou json). Par défaut : markdown.
includeImageBase64booléenNonInclure les images encodées en base64 dans la réponse
pagestableauNonPages spécifiques à traiter (tableau de numéros de page, commençant par 0)
imageLimitnombreNonNombre maximum d'images Ă  extraire du PDF
imageMinSizenombreNonHauteur et largeur minimales des images Ă  extraire du PDF
apiKeychaßneOuiClé API Mistral (MISTRAL_API_KEY)

Sortie

ParamĂštreTypeDescription
successbooleanIndique si le PDF a été analysé avec succÚs
contentstringContenu extrait dans le format demandé (markdown, texte ou JSON)
metadataobjectMétadonnées de traitement incluant jobId, fileType, pageCount et informations d'utilisation

Remarques

  • CatĂ©gorie : tools
  • Type : mistral_parse
Mistral Parser