Reducto

Extraire du texte de documents PDF

L'outil Reducto permet une extraction rapide et précise de texte et de données à partir de documents PDF via OCR (reconnaissance optique de caractères). Reducto est conçu pour les workflows d'agents, facilitant le traitement des PDF téléchargés ou liés et la transformation de leur contenu en informations prêtes à l'emploi.

Avec l'outil Reducto, vous pouvez :

  • Extraire du texte et des tableaux de PDF : convertissez rapidement des PDF numérisés ou numériques en texte, markdown ou JSON structuré.
  • Analyser des PDF depuis des téléchargements ou des URL : traitez des documents soit en téléchargeant un PDF, soit en spécifiant une URL directe.
  • Personnaliser le formatage de sortie : choisissez votre format de sortie préféré — markdown, texte brut ou JSON — et spécifiez les formats de tableau en markdown ou HTML.
  • Sélectionner des pages spécifiques : extrayez éventuellement le contenu de pages particulières pour optimiser le traitement et vous concentrer sur l'essentiel.
  • Recevoir des métadonnées de traitement détaillées : en plus du contenu extrait, obtenez les détails du travail, les temps de traitement, les informations du fichier source, le nombre de pages et les statistiques d'utilisation OCR pour l'audit et l'automatisation.

Que vous automatisiez des étapes de workflow, extrayiez des informations critiques pour l'entreprise ou déverrouilliez des documents d'archives pour la recherche et l'analyse, l'analyseur OCR de Reducto vous fournit des données structurées et exploitables, même à partir des PDF les plus complexes.

Vous recherchez une analyse PDF fiable et évolutive ? Reducto est optimisé pour les développeurs et les agents — offrant précision, rapidité et flexibilité pour la compréhension moderne des documents.

Instructions d'utilisation

Intégrez Reducto Parse dans le workflow. Peut extraire du texte de documents PDF téléchargés ou de références de fichiers.

Outils

reducto_parser

Entrée

ParamètreTypeRequisDescription
filePathstringNonURL vers un document PDF à traiter
filefileNonFichier de document à traiter
fileUploadobjectNonDonnées de téléchargement de fichier depuis le composant file-upload
pagesarrayNonPages spécifiques à traiter (numéros de page indexés à partir de 1)
tableOutputFormatstringNonFormat de sortie des tableaux (html ou markdown). Par défaut : markdown.
apiKeystringOuiClé API Reducto (REDUCTO_API_KEY)

Sortie

Cet outil ne produit aucune sortie.

On this page

Start building today
Trusted by over 70,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started