AWS Textract

ドキュメントからテキスト、表、フォームを抽出

AWS Textractは、スキャンされたドキュメントや画像から印刷されたテキスト、手書き文字、表、フォーム、キーと値のペア、その他の構造化データを自動的に抽出するために設計された、Amazon Web Servicesの強力なAIサービスです。Textractは、高度な光学式文字認識(OCR)とドキュメント分析を活用して、ドキュメントを実用的なデータに変換し、自動化、分析、コンプライアンスなどを可能にします。

AWS Textractを使用すると、次のことができます。

  • 画像やドキュメントからテキストを抽出: PDF、JPEG、PNG、TIFFなどの形式で印刷されたテキストや手書き文字を認識
  • 表を検出して抽出: 自動的に表を見つけて、その構造化されたコンテンツを出力
  • フォームとキーと値のペアを解析: フィールドとそれに対応する値を含む、フォームから構造化データを抽出
  • 署名とレイアウト機能を識別: 署名、幾何学的レイアウト、ドキュメント要素間の関係を検出
  • クエリを使用して抽出をカスタマイズ: クエリベースの抽出を使用して特定のフィールドと回答を抽出(例:「請求書番号は何ですか?」)

Simでは、AWS Textract統合により、エージェントがワークフローの一部としてドキュメントをインテリジェントに処理できるようになります。これにより、請求書、オンボーディングドキュメント、契約書、領収書などからのデータ入力などの自動化シナリオが可能になります。エージェントは、関連データを抽出し、構造化されたフォームを分析し、ドキュメントのアップロードやURLから直接サマリーやレポートを生成できます。SimとAWS Textractを接続することで、手作業を削減し、データの精度を向上させ、堅牢なドキュメント理解によってビジネスプロセスを合理化できます。

使用方法

AWS Textractをワークフローに統合して、ドキュメントからテキスト、表、フォーム、キーと値のペアを抽出します。シングルページモードはJPEG、PNG、シングルページPDFに対応しています。マルチページモードはマルチページPDFとTIFFに対応しています。

ツール

textract_parser

入力

パラメータ必須説明
accessKeyIdstringはいAWSアクセスキーID
secretAccessKeystringはいAWSシークレットアクセスキー
regionstringはいTextractサービスのリージョン(例:us-east-1)
processingModestringいいえドキュメントタイプ:single-pageまたはmulti-page。デフォルトはsingle-page。
filePathstringいいえ処理するドキュメントのURL(JPEG、PNG、またはシングルページPDF)。
filefileいいえ処理するドキュメントファイル(JPEG、PNG、またはシングルページPDF)。
s3Uristringいいえマルチページ処理用のS3 URI(s3://bucket/key)。
featureTypesarrayいいえ検出する機能タイプ:TABLES、FORMS、QUERIES、SIGNATURES、LAYOUT。指定しない場合、テキスト検出のみが実行されます。
itemsstringいいえ機能タイプ
queriesarrayいいえ特定の情報を抽出するためのカスタムクエリ。featureTypesにQUERIESが含まれている場合のみ使用されます。
itemsobjectいいえクエリ設定
propertiesstringいいえクエリテキスト
Textstringいいえ説明なし
Aliasstringいいえ説明なし

出力

このツールは出力を生成しません。

On this page

Start building today
Trusted by over 70,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started