Sim

Mistral Parser

Text aus PDF-Dokumenten extrahieren

Das Mistral Parse-Tool bietet eine leistungsstarke Möglichkeit, Inhalte aus PDF-Dokumenten mit der Mistral OCR API zu extrahieren und zu verarbeiten. Dieses Tool nutzt fortschrittliche optische Zeichenerkennung, um Text und Struktur aus PDF-Dateien präzise zu extrahieren und macht es einfach, Dokumentendaten in Ihre Agent-Workflows zu integrieren.

Mit dem Mistral Parse-Tool können Sie:

  • Text aus PDFs extrahieren: PDF-Inhalte präzise in Text-, Markdown- oder JSON-Formate konvertieren
  • PDFs von URLs verarbeiten: Inhalte direkt aus online gehosteten PDFs extrahieren, indem Sie deren URLs angeben
  • Dokumentstruktur beibehalten: Formatierung, Tabellen und Layout aus den Original-PDFs bewahren
  • Bilder extrahieren: Optional eingebettete Bilder aus den PDFs einbeziehen
  • Bestimmte Seiten auswählen: Nur die Seiten verarbeiten, die Sie aus mehrseitigen Dokumenten benötigen

Das Mistral Parse-Tool ist besonders nützlich für Szenarien, in denen Ihre Agenten mit PDF-Inhalten arbeiten müssen, wie zum Beispiel bei der Analyse von Berichten, der Extraktion von Daten aus Formularen oder der Verarbeitung von Text aus gescannten Dokumenten. Es vereinfacht den Prozess, PDF-Inhalte für Ihre Agenten verfügbar zu machen und ermöglicht ihnen, mit Informationen aus PDFs genauso einfach zu arbeiten wie mit direkter Texteingabe.

Gebrauchsanweisung

Integrieren Sie Mistral Parse in den Workflow. Kann Text aus hochgeladenen PDF-Dokumenten oder von einer URL extrahieren. Erfordert API-Schlüssel.

Tools

mistral_parser

PDF-Dokumente mit der Mistral OCR API analysieren

Eingabe

ParameterTypErforderlichBeschreibung
filePathstringJaURL zu einem zu verarbeitenden PDF-Dokument
fileUploadobjectNeinDatei-Upload-Daten von der Datei-Upload-Komponente
resultTypestringNeinArt des geparsten Ergebnisses (markdown, text oder json). Standardmäßig markdown.
includeImageBase64booleanNeinBase64-kodierte Bilder in die Antwort einschließen
pagesarrayNeinBestimmte zu verarbeitende Seiten (Array von Seitenzahlen, beginnend bei 0)
imageLimitnumberNeinMaximale Anzahl der aus dem PDF zu extrahierenden Bilder
imageMinSizenumberNeinMinimale Höhe und Breite der aus dem PDF zu extrahierenden Bilder
apiKeystringJaMistral API-Schlüssel (MISTRAL_API_KEY)

Ausgabe

ParameterTypBeschreibung
successbooleanOb das PDF erfolgreich geparst wurde
contentstringExtrahierter Inhalt im angeforderten Format (markdown, text oder JSON)
metadataobjectVerarbeitungsmetadaten einschließlich jobId, fileType, pageCount und Nutzungsinformationen

Notizen

  • Kategorie: tools
  • Typ: mistral_parse
Mistral Parser