Sim

Mistral Parser

PDFドキュメントからテキストを抽出する

Mistral Parseツールは、Mistralの OCR APIを使用してPDFドキュメントからコンテンツを抽出し処理する強力な方法を提供します。このツールは高度な光学式文字認識を活用して、PDFファイルからテキストと構造を正確に抽出し、ドキュメントデータをエージェントワークフローに簡単に組み込むことができます。

Mistral Parseツールでは、以下のことが可能です:

  • PDFからテキストを抽出: PDFコンテンツをテキスト、マークダウン、またはJSONフォーマットに正確に変換
  • URLからPDFを処理: URLを提供することでオンラインでホストされているPDFから直接コンテンツを抽出
  • ドキュメント構造の維持: 元のPDFからフォーマット、テーブル、レイアウトを保持
  • 画像の抽出: オプションでPDFに埋め込まれた画像を含める
  • 特定のページを選択: 複数ページのドキュメントから必要なページのみを処理

Mistral Parseツールは、エージェントがPDFコンテンツを扱う必要があるシナリオ、例えばレポートの分析、フォームからのデータ抽出、またはスキャンされた文書からのテキスト処理などに特に役立ちます。PDFコンテンツをエージェントが利用できるようにするプロセスを簡素化し、PDFに保存された情報を直接テキスト入力と同じくらい簡単に扱えるようにします。

使用方法

Mistral Parseをワークフローに統合します。アップロードされたPDF文書またはURLからテキストを抽出できます。APIキーが必要です。

ツール

mistral_parser

Mistral OCR APIを使用してPDF文書を解析する

入力

パラメータ必須説明
filePathstringはい処理するPDF文書のURL
fileUploadobjectいいえファイルアップロードコンポーネントからのファイルアップロードデータ
resultTypestringいいえ解析結果の種類(markdown、text、またはjson)。デフォルトはmarkdown
includeImageBase64booleanいいえレスポンスにbase64エンコードされた画像を含める
pagesarrayいいえ処理する特定のページ(ページ番号の配列、0から開始)
imageLimitnumberいいえPDFから抽出する画像の最大数
imageMinSizenumberいいえPDFから抽出する画像の最小の高さと幅
apiKeystringはいMistral APIキー(MISTRAL_API_KEY)

出力

パラメータ説明
successbooleanPDFが正常に解析されたかどうか
contentstring要求されたフォーマット(markdown、text、またはJSON)で抽出されたコンテンツ
metadataobjectjobId、fileType、pageCount、使用情報を含む処理メタデータ

メモ

  • カテゴリー: tools
  • タイプ: mistral_parse
Mistral Parser