Vision
Analysez des images avec des modĂšles de vision
Vision est un outil qui vous permet d'analyser des images avec des modĂšles de vision.
Avec Vision, vous pouvez :
- Analyser des images : Analyser des images avec des modĂšles de vision
- Extraire du texte : Extraire du texte Ă partir d'images
- Identifier des objets : Identifier des objets dans des images
- Décrire des images : Décrire des images en détail
- Générer des images : Générer des images à partir de texte
Dans Sim, l'intégration de Vision permet à vos agents d'analyser des images avec des modÚles de vision dans le cadre de leurs flux de travail. Cela permet des scénarios d'automatisation puissants qui nécessitent l'analyse d'images avec des modÚles de vision. Vos agents peuvent analyser des images avec des modÚles de vision, extraire du texte à partir d'images, identifier des objets dans des images, décrire des images en détail et générer des images à partir de texte. Cette intégration comble le fossé entre vos flux de travail IA et vos besoins d'analyse d'images, permettant des automatisations plus sophistiquées et centrées sur l'image. En connectant Sim avec Vision, vous pouvez créer des agents qui restent à jour avec les derniÚres informations, fournissent des réponses plus précises et offrent plus de valeur aux utilisateurs - le tout sans nécessiter d'intervention manuelle ou de code personnalisé.
Instructions d'utilisation
Traitez du contenu visuel avec des prompts personnalisables pour extraire des insights et des informations Ă partir d'images.
Outils
vision_tool
Traitez et analysez des images en utilisant des modÚles de vision avancés. Capable de comprendre le contenu des images, d'extraire du texte, d'identifier des objets et de fournir des descriptions visuelles détaillées.
Entrée
ParamĂštre | Type | Obligatoire | Description |
---|---|---|---|
apiKey | chaßne | Oui | Clé API pour le fournisseur de modÚle sélectionné |
imageUrl | chaĂźne | Oui | URL d'image accessible publiquement |
model | chaĂźne | Non | ModĂšle de vision Ă utiliser (gpt-4o, claude-3-opus-20240229, etc) |
prompt | chaßne | Non | Prompt personnalisé pour l'analyse d'image |
Sortie
ParamĂštre | Type | Description |
---|---|---|
content | string | Le contenu analysé et la description de l'image |
model | string | Le modÚle de vision qui a été utilisé pour l'analyse |
tokens | number | Total des jetons utilisés pour l'analyse |
usage | object | Répartition détaillée de l'utilisation des jetons |
Notes
- Catégorie :
tools
- Type :
vision