Jina

Jina AI est un puissant outil d'extraction de contenu qui s'intègre parfaitement à Sim pour transformer le contenu web en texte propre et lisible. Cette intégration permet aux développeurs d'incorporer facilement des capacités de traitement de contenu web dans leurs flux de travail d'agents.

Jina AI Reader se spécialise dans l'extraction du contenu le plus pertinent des pages web, en supprimant les éléments superflus, les publicités et les problèmes de formatage pour produire un texte propre et structuré, optimisé pour les modèles de langage et autres tâches de traitement de texte.

Avec l'intégration de Jina AI dans Sim, vous pouvez :

Extraire du contenu propre de n'importe quelle page web en fournissant simplement une URL
Traiter des mises en page web complexes en texte structuré et lisible
Maintenir le contexte important tout en supprimant les éléments inutiles
Préparer le contenu web pour un traitement ultérieur dans vos flux de travail d'agents
Simplifier les tâches de recherche en convertissant rapidement les informations web en données utilisables

Cette intégration est particulièrement précieuse pour créer des agents qui doivent recueillir et traiter des informations du web, mener des recherches ou analyser du contenu en ligne dans le cadre de leur flux de travail.

Instructions d'utilisation

Intégrez Jina AI dans votre flux de travail. Recherchez sur le web et obtenez des résultats adaptés aux LLM, ou extrayez du contenu propre à partir d'URLs spécifiques avec des options d'analyse avancées.

Outils

`jina_read_url`

Extrayez et traitez le contenu web en texte propre et adapté aux LLM avec Jina AI Reader. Prend en charge l'analyse avancée du contenu, la collecte de liens et plusieurs formats de sortie avec des options de traitement configurables.

Entrée

Paramètre	Type	Obligatoire	Description
`url`	string	Oui	L'URL à lire et à convertir en markdown
`useReaderLMv2`	boolean	Non	Utiliser ReaderLM-v2 pour une meilleure qualité (coût de jetons 3x plus élevé)
`gatherLinks`	boolean	Non	Rassembler tous les liens à la fin
`jsonResponse`	boolean	Non	Renvoyer la réponse au format JSON
`apiKey`	string	Oui	Votre clé API Jina AI
`withImagesummary`	boolean	Non	Recueillir toutes les images de la page avec leurs métadonnées
`retainImages`	string	Non	Contrôler l'inclusion d'images : "none" supprime tout, "all" conserve tout
`returnFormat`	string	Non	Format de sortie : markdown, html, text, screenshot ou pageshot
`withIframe`	boolean	Non	Inclure le contenu des iframes dans l'extraction
`withShadowDom`	boolean	Non	Extraire le contenu du Shadow DOM
`noCache`	boolean	Non	Contourner le contenu mis en cache pour une récupération en temps réel
`withGeneratedAlt`	boolean	Non	Générer du texte alternatif pour les images en utilisant VLM
`robotsTxt`	string	Non	Agent utilisateur bot pour la vérification du robots.txt
`dnt`	boolean	Non	Ne pas suivre - empêche la mise en cache/le suivi
`noGfm`	boolean	Non	Désactiver le Markdown de style GitHub

Sortie

Paramètre	Type	Description
`content`	string	Le contenu extrait de l'URL, traité en texte propre et adapté aux LLM

`jina_search`

Recherche sur le web et renvoie les 5 meilleurs résultats avec un contenu adapté aux LLM. Chaque résultat est automatiquement traité via l'API Jina Reader. Prend en charge le filtrage géographique, les restrictions de site et la pagination.

Entrée

Paramètre	Type	Obligatoire	Description
`q`	string	Oui	Chaîne de requête de recherche
`apiKey`	string	Oui	Votre clé API Jina AI
`num`	number	Non	Nombre maximum de résultats par page (par défaut : 5)
`site`	string	Non	Limiter les résultats à des domaines spécifiques. Peut être séparé par des virgules pour plusieurs sites (ex. : "jina.ai,github.com")
`withFavicon`	boolean	Non	Inclure les favicons des sites web dans les résultats
`withImagesummary`	boolean	Non	Recueillir toutes les images des pages de résultats avec leurs métadonnées
`withLinksummary`	boolean	Non	Recueillir tous les liens des pages de résultats
`retainImages`	string	Non	Contrôler l'inclusion d'images : "none" supprime tout, "all" conserve tout
`noCache`	boolean	Non	Contourner le contenu mis en cache pour une récupération en temps réel
`withGeneratedAlt`	boolean	Non	Générer du texte alternatif pour les images en utilisant VLM
`respondWith`	string	Non	Définir sur "no-content" pour obtenir uniquement les métadonnées sans le contenu de la page
`returnFormat`	string	Non	Format de sortie : markdown, html, text, screenshot ou pageshot

Sortie

Paramètre	Type	Description
`results`	array	Tableau de résultats de recherche, chacun contenant titre, description, url et contenu adapté aux LLM

On this page