Mistral Parser
Extraer texto de documentos PDF
La herramienta Mistral Parse proporciona una forma potente de extraer y procesar contenido de documentos PDF utilizando la API de OCR de Mistral. Esta herramienta aprovecha el reconocimiento óptico de caracteres avanzado para extraer con precisión texto y estructura de archivos PDF, facilitando la incorporación de datos de documentos en los flujos de trabajo de tus agentes.
Con la herramienta Mistral Parse, puedes:
- Extraer texto de PDFs: Convertir con precisión el contenido de PDF a formatos de texto, markdown o JSON
- Procesar PDFs desde URLs: Extraer directamente contenido de PDFs alojados en lÃnea proporcionando sus URLs
- Mantener la estructura del documento: Preservar el formato, tablas y diseño de los PDFs originales
- Extraer imágenes: Incluir opcionalmente imágenes incrustadas de los PDFs
- Seleccionar páginas especÃficas: Procesar solo las páginas que necesitas de documentos de múltiples páginas
La herramienta Mistral Parse es particularmente útil para escenarios donde tus agentes necesitan trabajar con contenido PDF, como analizar informes, extraer datos de formularios o procesar texto de documentos escaneados. Simplifica el proceso de hacer que el contenido PDF esté disponible para tus agentes, permitiéndoles trabajar con información almacenada en PDFs tan fácilmente como con entrada de texto directa.
Instrucciones de uso
Extrae texto y estructura de documentos PDF utilizando la API de OCR de Mistral. Introduce una URL a un documento PDF o sube un archivo PDF directamente. Configura las opciones de procesamiento y obtén el contenido en tu formato preferido. Para URLs, deben ser de acceso público y apuntar a un archivo PDF válido. Nota: No se admiten enlaces de Google Drive, Dropbox y otros almacenamientos en la nube; utiliza en su lugar una URL de descarga directa desde un servidor web.
Herramientas
mistral_parser
Analizar documentos PDF utilizando la API de OCR de Mistral
Entrada
Parámetro | Tipo | Obligatorio | Descripción |
---|---|---|---|
filePath | string | SÃ | URL a un documento PDF para ser procesado |
fileUpload | object | No | Datos de carga de archivo desde el componente de carga de archivos |
resultType | string | No | Tipo de resultado analizado (markdown, texto o json). Por defecto es markdown. |
includeImageBase64 | boolean | No | Incluir imágenes codificadas en base64 en la respuesta |
pages | array | No | Páginas especÃficas para procesar (array de números de página, comenzando desde 0) |
imageLimit | number | No | Número máximo de imágenes para extraer del PDF |
imageMinSize | number | No | Altura y anchura mÃnimas de las imágenes para extraer del PDF |
apiKey | string | SÃ | Clave API de Mistral (MISTRAL_API_KEY) |
Salida
Parámetro | Tipo | Descripción |
---|---|---|
success | boolean | Indica si el PDF se analizó correctamente |
content | string | Contenido extraÃdo en el formato solicitado (markdown, texto o JSON) |
metadata | object | Metadatos de procesamiento que incluyen jobId, fileType, pageCount e información de uso |
Notas
- CategorÃa:
tools
- Tipo:
mistral_parse