Sim

Jina

Recherchez sur le web ou extrayez du contenu à partir d'URLs

Jina AI est un puissant outil d'extraction de contenu qui s'intègre parfaitement à Sim pour transformer le contenu web en texte propre et lisible. Cette intégration permet aux développeurs d'incorporer facilement des capacités de traitement de contenu web dans leurs flux de travail d'agents.

Jina AI Reader se spécialise dans l'extraction du contenu le plus pertinent des pages web, en supprimant les éléments superflus, les publicités et les problèmes de formatage pour produire un texte propre et structuré, optimisé pour les modèles de langage et autres tâches de traitement de texte.

Avec l'intégration de Jina AI dans Sim, vous pouvez :

  • Extraire du contenu propre de n'importe quelle page web en fournissant simplement une URL
  • Traiter des mises en page web complexes en texte structuré et lisible
  • Maintenir le contexte important tout en supprimant les éléments inutiles
  • Préparer le contenu web pour un traitement ultérieur dans vos flux de travail d'agents
  • Simplifier les tâches de recherche en convertissant rapidement les informations web en données utilisables

Cette intégration est particulièrement précieuse pour créer des agents qui doivent recueillir et traiter des informations du web, mener des recherches ou analyser du contenu en ligne dans le cadre de leur flux de travail.

Instructions d'utilisation

Intégrez Jina AI dans votre flux de travail. Recherchez sur le web et obtenez des résultats adaptés aux LLM, ou extrayez du contenu propre à partir d'URLs spécifiques avec des options d'analyse avancées.

Outils

jina_read_url

Extrayez et traitez le contenu web en texte propre et adapté aux LLM avec Jina AI Reader. Prend en charge l'analyse avancée du contenu, la collecte de liens et plusieurs formats de sortie avec des options de traitement configurables.

Entrée

ParamètreTypeObligatoireDescription
urlstringOuiL'URL à lire et à convertir en markdown
useReaderLMv2booleanNonUtiliser ReaderLM-v2 pour une meilleure qualité (coût de jetons 3x plus élevé)
gatherLinksbooleanNonRassembler tous les liens à la fin
jsonResponsebooleanNonRenvoyer la réponse au format JSON
apiKeystringOuiVotre clé API Jina AI
withImagesummarybooleanNonRecueillir toutes les images de la page avec leurs métadonnées
retainImagesstringNonContrôler l'inclusion d'images : "none" supprime tout, "all" conserve tout
returnFormatstringNonFormat de sortie : markdown, html, text, screenshot ou pageshot
withIframebooleanNonInclure le contenu des iframes dans l'extraction
withShadowDombooleanNonExtraire le contenu du Shadow DOM
noCachebooleanNonContourner le contenu mis en cache pour une récupération en temps réel
withGeneratedAltbooleanNonGénérer du texte alternatif pour les images en utilisant VLM
robotsTxtstringNonAgent utilisateur bot pour la vérification du robots.txt
dntbooleanNonNe pas suivre - empêche la mise en cache/le suivi
noGfmbooleanNonDésactiver le Markdown de style GitHub

Sortie

ParamètreTypeDescription
contentstringLe contenu extrait de l'URL, traité en texte propre et adapté aux LLM
linksarrayListe des liens trouvés sur la page (lorsque gatherLinks ou withLinksummary est activé)
imagesarrayListe des images trouvées sur la page (lorsque withImagesummary est activé)

Recherche sur le web et renvoie les 5 meilleurs résultats avec un contenu adapté aux LLM. Chaque résultat est automatiquement traité via l'API Jina Reader. Prend en charge le filtrage géographique, les restrictions de site et la pagination.

Entrée

ParamètreTypeObligatoireDescription
qstringOuiChaîne de requête de recherche
apiKeystringOuiVotre clé API Jina AI
numnumberNonNombre maximum de résultats par page (par défaut : 5)
sitestringNonLimiter les résultats à des domaines spécifiques. Peut être séparé par des virgules pour plusieurs sites (ex. : "jina.ai,github.com")
withFaviconbooleanNonInclure les favicons des sites web dans les résultats
withImagesummarybooleanNonRecueillir toutes les images des pages de résultats avec leurs métadonnées
withLinksummarybooleanNonRecueillir tous les liens des pages de résultats
retainImagesstringNonContrôler l'inclusion d'images : "none" supprime tout, "all" conserve tout
noCachebooleanNonContourner le contenu mis en cache pour une récupération en temps réel
withGeneratedAltbooleanNonGénérer du texte alternatif pour les images en utilisant VLM
respondWithstringNonDéfinir sur "no-content" pour obtenir uniquement les métadonnées sans le contenu de la page
returnFormatstringNonFormat de sortie : markdown, html, text, screenshot ou pageshot

Sortie

ParamètreTypeDescription
resultsarrayTableau de résultats de recherche, chacun contenant titre, description, url et contenu adapté aux LLM

Notes

  • Catégorie : tools
  • Type : jina
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started