Pulse

Pulse OCRを使用してドキュメントからテキストを抽出

Pulseツールは、Pulseを搭載した最先端のOCR(光学文字認識)を使用して、PDF、画像、Officeファイルなど、さまざまなドキュメントからテキストと構造化コンテンツをシームレスに抽出できます。自動化されたエージェントワークフロー向けに設計されたPulse Parserは、非構造化ドキュメントに閉じ込められた貴重な情報を解放し、抽出されたコンテンツをワークフローに直接統合することを容易にします。

Pulseでできること:

  • ドキュメントからテキストを抽出: スキャンされたPDF、画像、Officeドキュメントを使用可能なテキスト、markdown、またはJSONに素早く変換します。
  • URLまたはアップロードによるドキュメント処理: ファイルURLを指定するか、アップロードを使用してローカルドキュメントまたはリモートリソースからテキストを抽出します。
  • 柔軟な出力形式: 抽出されたコンテンツのmarkdown、プレーンテキスト、またはJSON表現を選択して、下流処理に使用できます。
  • 選択的なページ処理: 処理するページ範囲を指定することで、ドキュメントの一部のみが必要な場合に処理時間とコストを削減できます。
  • 図表と表の抽出: オプションで図表と表を抽出し、コンテキストを充実させるためのキャプションと説明を自動生成します。
  • 処理インサイトの取得: ファイルタイプ、ページ数、処理時間など、各ジョブの詳細なメタデータを受け取ります。
  • 統合対応のレスポンス: 抽出されたコンテンツをリサーチ、ワークフロー自動化、またはデータ分析パイプラインに組み込みます。

面倒なドキュメントレビューの自動化、コンテンツ要約、リサーチなどを可能にするPulse Parserは、現実世界のドキュメントをデジタルワークフロー時代に導きます。

正確でスケーラブル、かつ開発者フレンドリーなドキュメント解析機能が必要な場合、形式、言語、レイアウトを問わず、Pulseはエージェントが世界を読むことを可能にします。

使用方法

Pulseをワークフローに統合します。アップロードまたはファイル参照を介して、PDFドキュメント、画像、Officeファイルからテキストを抽出します。

ツール

pulse_parser

入力

パラメータ必須説明
filePathstringいいえ処理するドキュメントのURL
filefileいいえ処理するドキュメントファイル
fileUploadobjectいいえファイルアップロードコンポーネントからのファイルアップロードデータ
pagesstringいいえ処理するページ範囲(1から始まるインデックス、例:「1-2,5」)
extractFigurebooleanいいえドキュメントから図の抽出を有効にする
figureDescriptionbooleanいいえ抽出された図の説明/キャプションを生成する
returnHtmlbooleanいいえレスポンスにHTMLを含める
chunkingstringいいえチャンク化戦略(カンマ区切り:semantic、header、page、recursive)
chunkSizenumberいいえチャンク化が有効な場合のチャンクあたりの最大文字数
apiKeystringはいPulse APIキー

出力

このツールは出力を生成しません。

On this page

Start building today
Trusted by over 70,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started