Reducto
PDFドキュメントからテキストを抽出
Reductoツールは、OCR(光学文字認識)を使用してPDFドキュメントからテキストとデータを高速かつ正確に抽出できます。Reductoはエージェントワークフロー向けに設計されており、アップロードまたはリンクされたPDFを簡単に処理し、その内容をすぐに使用できる情報に変換します。
Reductoツールでできること:
- PDFからテキストと表を抽出: スキャンまたはデジタルPDFをテキスト、markdown、または構造化JSONに素早く変換します。
- アップロードまたはURLからPDFを解析: PDFをアップロードするか、直接URLを指定してドキュメントを処理します。
- 出力形式をカスタマイズ: markdown、プレーンテキスト、またはJSONから希望の出力形式を選択し、表の形式をmarkdownまたはHTMLで指定します。
- 特定のページを選択: オプションで特定のページからコンテンツを抽出し、処理を最適化して重要な部分に焦点を当てます。
- 詳細な処理メタデータを受信: 抽出されたコンテンツと共に、ジョブの詳細、処理時間、ソースファイル情報、ページ数、OCR使用統計を取得し、監査と自動化に活用できます。
ワークフローステップの自動化、ビジネスクリティカルな情報の抽出、またはアーカイブドキュメントの検索と分析のためのアンロックなど、ReductoのOCRパーサーは、最も複雑なPDFからでも構造化された実用的なデータを提供します。
信頼性が高くスケーラブルなPDF解析をお探しですか? Reductoは開発者とエージェント向けに最適化されており、現代のドキュメント理解のための精度、速度、柔軟性を提供します。
使用方法
Reducto Parseをワークフローに統合します。アップロードされたPDFドキュメントまたはファイル参照からテキストを抽出できます。
ツール
reducto_parser
入力
| パラメータ | タイプ | 必須 | 説明 |
|---|---|---|---|
filePath | string | いいえ | 処理するPDFドキュメントのURL |
file | file | いいえ | 処理するドキュメントファイル |
fileUpload | object | いいえ | ファイルアップロードコンポーネントからのファイルアップロードデータ |
pages | array | いいえ | 処理する特定のページ(1から始まるページ番号) |
tableOutputFormat | string | いいえ | 表の出力形式(htmlまたはmarkdown)。デフォルトはmarkdownです。 |
apiKey | string | はい | Reducto APIキー(REDUCTO_API_KEY) |
出力
このツールは出力を生成しません。