Sim

Mistral Parser

Extraer texto de documentos PDF

La herramienta Mistral Parse proporciona una forma potente de extraer y procesar contenido de documentos PDF utilizando la API de OCR de Mistral. Esta herramienta aprovecha el reconocimiento óptico de caracteres avanzado para extraer con precisión texto y estructura de archivos PDF, facilitando la incorporación de datos de documentos en los flujos de trabajo de tus agentes.

Con la herramienta Mistral Parse, puedes:

  • Extraer texto de PDFs: Convertir con precisión el contenido de PDF a formatos de texto, markdown o JSON
  • Procesar PDFs desde URLs: Extraer directamente contenido de PDFs alojados en línea proporcionando sus URLs
  • Mantener la estructura del documento: Preservar el formato, tablas y diseño de los PDFs originales
  • Extraer imágenes: Incluir opcionalmente imágenes incrustadas de los PDFs
  • Seleccionar páginas específicas: Procesar solo las páginas que necesitas de documentos de múltiples páginas

La herramienta Mistral Parse es particularmente útil para escenarios donde tus agentes necesitan trabajar con contenido PDF, como analizar informes, extraer datos de formularios o procesar texto de documentos escaneados. Simplifica el proceso de hacer que el contenido PDF esté disponible para tus agentes, permitiéndoles trabajar con información almacenada en PDFs tan fácilmente como con entrada de texto directa.

Instrucciones de uso

Extrae texto y estructura de documentos PDF utilizando la API de OCR de Mistral. Introduce una URL a un documento PDF o sube un archivo PDF directamente. Configura las opciones de procesamiento y obtén el contenido en tu formato preferido. Para URLs, deben ser de acceso público y apuntar a un archivo PDF válido. Nota: No se admiten enlaces de Google Drive, Dropbox y otros almacenamientos en la nube; utiliza en su lugar una URL de descarga directa desde un servidor web.

Herramientas

mistral_parser

Analizar documentos PDF utilizando la API de OCR de Mistral

Entrada

ParámetroTipoObligatorioDescripción
filePathstringSíURL a un documento PDF para ser procesado
fileUploadobjectNoDatos de carga de archivo desde el componente de carga de archivos
resultTypestringNoTipo de resultado analizado (markdown, texto o json). Por defecto es markdown.
includeImageBase64booleanNoIncluir imágenes codificadas en base64 en la respuesta
pagesarrayNoPáginas específicas para procesar (array de números de página, comenzando desde 0)
imageLimitnumberNoNúmero máximo de imágenes para extraer del PDF
imageMinSizenumberNoAltura y anchura mínimas de las imágenes para extraer del PDF
apiKeystringSíClave API de Mistral (MISTRAL_API_KEY)

Salida

ParámetroTipoDescripción
successbooleanIndica si el PDF se analizó correctamente
contentstringContenido extraído en el formato solicitado (markdown, texto o JSON)
metadataobjectMetadatos de procesamiento que incluyen jobId, fileType, pageCount e información de uso

Notas

  • Categoría: tools
  • Tipo: mistral_parse
Mistral Parser