Vision

Visionは、ビジョンモデルを使って画像を分析できるツールです。

Visionでは、以下のことができます：

画像を分析する：ビジョンモデルで画像を分析
テキストを抽出する：画像からテキストを抽出
オブジェクトを識別する：画像内のオブジェクトを識別
画像を説明する：画像を詳細に説明
画像を生成する：テキストから画像を生成

Simでは、Vision統合によりエージェントがワークフローの一部としてビジョンモデルで画像を分析できるようになります。これにより、ビジョンモデルによる画像分析を必要とする強力な自動化シナリオが可能になります。エージェントはビジョンモデルで画像を分析し、画像からテキストを抽出し、画像内のオブジェクトを識別し、画像を詳細に説明し、テキストから画像を生成することができます。この統合により、AIワークフローと画像分析のニーズの間のギャップが埋まり、より高度で画像中心の自動化が可能になります。SimとVisionを接続することで、手動の介入やカスタムコードを必要とせずに、最新の情報を常に把握し、より正確な応答を提供し、ユーザーにより多くの価値を届けるエージェントを作成できます。

パラメータ	型	必須	説明
`apiKey`	string	はい	選択したモデルプロバイダーのAPIキー
`imageUrl`	string	いいえ	公開アクセス可能な画像URL
`imageFile`	file	いいえ	分析する画像ファイル
`model`	string	いいえ	使用するビジョンモデル（gpt-4o、claude-3-opus-20240229など）
`prompt`	string	いいえ	画像分析用のカスタムプロンプト

Vision

使用手順

ツール

`vision_tool`

入力

出力

On this page