Pulse
Pulse OCRを使用してドキュメントからテキストを抽出
Pulseツールは、Pulseを搭載した最先端のOCR(光学文字認識)を使用して、PDF、画像、Officeファイルなど、さまざまなドキュメントからテキストと構造化コンテンツをシームレスに抽出できます。自動化されたエージェントワークフロー向けに設計されたPulse Parserは、非構造化ドキュメントに閉じ込められた貴重な情報を解放し、抽出されたコンテンツをワークフローに直接統合することを容易にします。
Pulseでできること:
- ドキュメントからテキストを抽出: スキャンされたPDF、画像、Officeドキュメントを使用可能なテキスト、markdown、またはJSONに素早く変換します。
- URLまたはアップロードによるドキュメント処理: ファイルURLを指定するか、アップロードを使用してローカルドキュメントまたはリモートリソースからテキストを抽出します。
- 柔軟な出力形式: 抽出されたコンテンツのmarkdown、プレーンテキスト、またはJSON表現を選択して、下流処理に使用できます。
- 選択的なページ処理: 処理するページ範囲を指定することで、ドキュメントの一部のみが必要な場合に処理時間とコストを削減できます。
- 図表と表の抽出: オプションで図表と表を抽出し、コンテキストを充実させるためのキャプションと説明を自動生成します。
- 処理インサイトの取得: ファイルタイプ、ページ数、処理時間など、各ジョブの詳細なメタデータを受け取ります。
- 統合対応のレスポンス: 抽出されたコンテンツをリサーチ、ワークフロー自動化、またはデータ分析パイプラインに組み込みます。
面倒なドキュメントレビューの自動化、コンテンツ要約、リサーチなどを可能にするPulse Parserは、現実世界のドキュメントをデジタルワークフロー時代に導きます。
正確でスケーラブル、かつ開発者フレンドリーなドキュメント解析機能が必要な場合、形式、言語、レイアウトを問わず、Pulseはエージェントが世界を読むことを可能にします。
使用方法
Pulseをワークフローに統合します。アップロードまたはファイル参照を介して、PDFドキュメント、画像、Officeファイルからテキストを抽出します。
ツール
pulse_parser
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
filePath | string | いいえ | 処理するドキュメントのURL |
file | file | いいえ | 処理するドキュメントファイル |
fileUpload | object | いいえ | ファイルアップロードコンポーネントからのファイルアップロードデータ |
pages | string | いいえ | 処理するページ範囲(1から始まるインデックス、例:「1-2,5」) |
extractFigure | boolean | いいえ | ドキュメントから図の抽出を有効にする |
figureDescription | boolean | いいえ | 抽出された図の説明/キャプションを生成する |
returnHtml | boolean | いいえ | レスポンスにHTMLを含める |
chunking | string | いいえ | チャンク化戦略(カンマ区切り:semantic、header、page、recursive) |
chunkSize | number | いいえ | チャンク化が有効な場合のチャンクあたりの最大文字数 |
apiKey | string | はい | Pulse APIキー |
出力
このツールは出力を生成しません。