Visionは、ビジョンモデルを使って画像を分析できるツールです。
Visionでは、以下のことができます:
- 画像を分析する:ビジョンモデルで画像を分析
- テキストを抽出する:画像からテキストを抽出
- オブジェクトを識別する:画像内のオブジェクトを識別
- 画像を説明する:画像を詳細に説明
- 画像を生成する:テキストから画像を生成
Simでは、Vision統合によりエージェントがワークフローの一部としてビジョンモデルで画像を分析できるようになります。これにより、ビジョンモデルによる画像分析を必要とする強力な自動化シナリオが可能になります。エージェントはビジョンモデルで画像を分析し、画像からテキストを抽出し、画像内のオブジェクトを識別し、画像を詳細に説明し、テキストから画像を生成することができます。この統合により、AIワークフローと画像分析のニーズの間のギャップが埋まり、より高度で画像中心の自動化が可能になります。SimとVisionを接続することで、手動の介入やカスタムコードを必要とせずに、最新の情報を常に把握し、より正確な応答を提供し、ユーザーにより多くの価値を届けるエージェントを作成できます。
使用手順
Visionをワークフローに統合します。ビジョンモデルで画像を分析できます。APIキーが必要です。
ツール
vision_tool
高度なビジョンモデルを使用して画像を処理・分析します。画像コンテンツの理解、テキストの抽出、オブジェクトの識別、詳細な視覚的説明の提供が可能です。
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
apiKey | string | はい | 選択したモデルプロバイダーのAPIキー |
imageUrl | string | いいえ | 公開アクセス可能な画像URL |
imageFile | file | いいえ | 分析する画像ファイル |
model | string | いいえ | 使用するビジョンモデル(gpt-4o、claude-3-opus-20240229など) |
prompt | string | いいえ | 画像分析用のカスタムプロンプト |
出力
| パラメータ | 型 | 説明 |
|---|---|---|
content | string | 分析されたコンテンツと画像の説明 |
model | string | 分析に使用されたビジョンモデル |
tokens | number | 分析に使用された合計トークン数 |
usage | object | 詳細なトークン使用内訳 |
注意事項
- カテゴリー:
tools - タイプ:
vision