视觉 | Sim Docs

视觉是一款可以使用视觉模型分析图像的工具。

使用 Vision，您可以：

分析图像：使用视觉模型分析图像
提取文本：从图像中提取文本
识别对象：识别图像中的对象
描述图像：详细描述图像
生成图像：从文本生成图像

在 Sim 中，Vision 集成使您的代理能够在工作流程中使用视觉模型分析图像。这为需要使用视觉模型分析图像的强大自动化场景提供了可能。您的代理可以使用视觉模型分析图像、从图像中提取文本、识别图像中的对象、详细描述图像以及从文本生成图像。此集成弥合了您的 AI 工作流程与图像分析需求之间的差距，实现了更复杂且以图像为中心的自动化。通过将 Sim 与 Vision 连接，您可以创建能够跟上最新信息的代理，提供更准确的响应，并为用户带来更多价值——这一切都无需人工干预或自定义代码。

参数	类型	必需	描述
`apiKey`	string	是	所选模型提供商的 API 密钥
`imageUrl`	string	否	可公开访问的图片 URL
`imageFile`	file	否	要分析的图片文件
`model`	string	否	要使用的视觉模型 (gpt-4o, claude-3-opus-20240229 等)
`prompt`	string	否	用于图像分析的自定义提示

视觉

使用说明

工具

`vision_tool`

输入

输出

On this page