Mistral Parser
Extraire du texte Ă partir de documents PDF
L'outil Mistral Parse offre un moyen puissant d'extraire et de traiter le contenu des documents PDF en utilisant l'API OCR de Mistral. Cet outil exploite la reconnaissance optique de caractÚres avancée pour extraire avec précision le texte et la structure des fichiers PDF, facilitant ainsi l'intégration des données documentaires dans vos flux de travail d'agents.
Avec l'outil Mistral Parse, vous pouvez :
- Extraire du texte des PDF : convertir avec précision le contenu PDF en formats texte, markdown ou JSON
- Traiter les PDF à partir d'URL : extraire directement le contenu des PDF hébergés en ligne en fournissant leurs URL
- Conserver la structure du document : préserver la mise en forme, les tableaux et la disposition des PDF originaux
- Extraire des images : inclure optionnellement les images intégrées dans les PDF
- Sélectionner des pages spécifiques : traiter uniquement les pages dont vous avez besoin dans les documents multi-pages
L'outil Mistral Parse est particuliĂšrement utile dans les scĂ©narios oĂč vos agents doivent travailler avec du contenu PDF, comme l'analyse de rapports, l'extraction de donnĂ©es de formulaires ou le traitement de texte Ă partir de documents numĂ©risĂ©s. Il simplifie le processus de mise Ă disposition du contenu PDF pour vos agents, leur permettant de travailler avec les informations stockĂ©es dans les PDF aussi facilement qu'avec une saisie de texte directe.
Instructions d'utilisation
Extrayez le texte et la structure des documents PDF en utilisant l'API OCR de Mistral. Saisissez une URL vers un document PDF ou tĂ©lĂ©chargez directement un fichier PDF. Configurez les options de traitement et obtenez le contenu dans votre format prĂ©fĂ©rĂ©. Pour les URL, elles doivent ĂȘtre accessibles publiquement et pointer vers un fichier PDF valide. Remarque : les liens Google Drive, Dropbox et autres services de stockage cloud ne sont pas pris en charge ; utilisez plutĂŽt une URL de tĂ©lĂ©chargement direct depuis un serveur web.
Outils
mistral_parser
Analyser des documents PDF avec l'API OCR de Mistral
Entrée
ParamĂštre | Type | Obligatoire | Description |
---|---|---|---|
filePath | chaĂźne | Oui | URL vers un document PDF Ă traiter |
fileUpload | objet | Non | Données de téléchargement de fichier provenant du composant de téléchargement de fichier |
resultType | chaßne | Non | Type de résultat analysé (markdown, texte ou json). Par défaut : markdown. |
includeImageBase64 | booléen | Non | Inclure les images encodées en base64 dans la réponse |
pages | tableau | Non | Pages spécifiques à traiter (tableau de numéros de page, commençant par 0) |
imageLimit | nombre | Non | Nombre maximum d'images Ă extraire du PDF |
imageMinSize | nombre | Non | Hauteur et largeur minimales des images Ă extraire du PDF |
apiKey | chaßne | Oui | Clé API Mistral (MISTRAL_API_KEY) |
Sortie
ParamĂštre | Type | Description |
---|---|---|
success | boolean | Indique si le PDF a été analysé avec succÚs |
content | string | Contenu extrait dans le format demandé (markdown, texte ou JSON) |
metadata | object | Métadonnées de traitement incluant jobId, fileType, pageCount et informations d'utilisation |
Remarques
- Catégorie :
tools
- Type :
mistral_parse