Sim

视觉

使用视觉模型分析图像

视觉是一款可以使用视觉模型分析图像的工具。

使用 Vision,您可以:

  • 分析图像:使用视觉模型分析图像
  • 提取文本:从图像中提取文本
  • 识别对象:识别图像中的对象
  • 描述图像:详细描述图像
  • 生成图像:从文本生成图像

在 Sim 中,Vision 集成使您的代理能够在工作流程中使用视觉模型分析图像。这为需要使用视觉模型分析图像的强大自动化场景提供了可能。您的代理可以使用视觉模型分析图像、从图像中提取文本、识别图像中的对象、详细描述图像以及从文本生成图像。此集成弥合了您的 AI 工作流程与图像分析需求之间的差距,实现了更复杂且以图像为中心的自动化。通过将 Sim 与 Vision 连接,您可以创建能够跟上最新信息的代理,提供更准确的响应,并为用户带来更多价值——这一切都无需人工干预或自定义代码。

使用说明

通过可自定义的提示处理视觉内容,从图像中提取洞察和信息。

工具

vision_tool

使用先进的视觉模型处理和分析图像。能够理解图像内容、提取文本、识别对象并提供详细的视觉描述。

输入

参数类型必需描述
apiKeystring所选模型提供商的 API 密钥
imageUrlstring可公开访问的图像 URL
modelstring要使用的视觉模型(gpt-4o、claude-3-opus-20240229 等)
promptstring图像分析的自定义提示

输出

参数类型描述
contentstring分析后的内容和图像的描述
modelstring用于分析的视觉模型
tokensnumber分析中使用的总 token 数
usageobject详细的 token 使用情况分析

注意事项

  • 类别:tools
  • 类型:vision
视觉