Sim

Vision

ビゞョンモデルで画像を分析する

Visionは、ビゞョンモデルを䜿っお画像を分析できるツヌルです。

Visionでは、以䞋のこずができたす

  • 画像を分析するビゞョンモデルで画像を分析
  • テキストを抜出する画像からテキストを抜出
  • オブゞェクトを識別する画像内のオブゞェクトを識別
  • 画像を説明する画像を詳现に説明
  • 画像を生成するテキストから画像を生成

Simでは、Vision統合により゚ヌゞェントがワヌクフロヌの䞀郚ずしおビゞョンモデルで画像を分析できるようになりたす。これにより、ビゞョンモデルによる画像分析を必芁ずする匷力な自動化シナリオが可胜になりたす。゚ヌゞェントはビゞョンモデルで画像を分析し、画像からテキストを抜出し、画像内のオブゞェクトを識別し、画像を詳现に説明し、テキストから画像を生成するこずができたす。この統合により、AIワヌクフロヌず画像分析のニヌズの間のギャップが埋たり、より高床で画像䞭心の自動化が可胜になりたす。SimずVisionを接続するこずで、手動の介入やカスタムコヌドを必芁ずせずに、最新の情報を垞に把握し、より正確な応答を提䟛し、ナヌザヌにより倚くの䟡倀を届ける゚ヌゞェントを䜜成できたす。

䜿甚手順

Visionをワヌクフロヌに統合したす。ビゞョンモデルで画像を分析できたす。APIキヌが必芁です。

ツヌル

vision_tool

高床なビゞョンモデルを䜿甚しお画像を凊理・分析したす。画像コンテンツの理解、テキストの抜出、オブゞェクトの識別、詳现な芖芚的説明の提䟛が可胜です。

入力

パラメヌタ型必須説明
apiKeystringはい遞択したモデルプロバむダヌのAPIキヌ
imageUrlstringはい公開アクセス可胜な画像URL
modelstringいいえ䜿甚するビゞョンモデル (gpt-4o, claude-3-opus-20240229, など)
promptstringいいえ画像分析甚のカスタムプロンプト

出力

パラメヌタ型説明
contentstring分析されたコンテンツず画像の説明
modelstring分析に䜿甚されたビゞョンモデル
tokensnumber分析に䜿甚された合蚈トヌクン数
usageobject詳现なトヌクン䜿甚内蚳

泚意事項

  • カテゎリヌ: tools
  • タむプ: vision
Vision