Sim

Jina

Busca en la web o extrae contenido de URLs

Jina AI es una potente herramienta de extracción de contenido que se integra perfectamente con Sim para transformar el contenido web en texto limpio y legible. Esta integración permite a los desarrolladores incorporar fácilmente capacidades de procesamiento de contenido web en sus flujos de trabajo basados en agentes.

Jina AI Reader se especializa en extraer el contenido más relevante de las páginas web, eliminando el desorden, la publicidad y los problemas de formato para producir texto limpio y estructurado que está optimizado para modelos de lenguaje y otras tareas de procesamiento de texto.

Con la integración de Jina AI en Sim, puedes:

  • Extraer contenido limpio de cualquier página web simplemente proporcionando una URL
  • Procesar diseños web complejos en texto estructurado y legible
  • Mantener el contexto importante mientras eliminas elementos innecesarios
  • Preparar contenido web para su posterior procesamiento en tus flujos de trabajo con agentes
  • Agilizar tareas de investigación convirtiendo rápidamente la información web en datos utilizables

Esta integración es particularmente valiosa para crear agentes que necesitan recopilar y procesar información de la web, realizar investigaciones o analizar contenido en línea como parte de su flujo de trabajo.

Instrucciones de uso

Integra Jina AI en el flujo de trabajo. Busca en la web y obtén resultados compatibles con LLM, o extrae contenido limpio de URLs específicas con opciones de análisis avanzadas.

Herramientas

jina_read_url

Extrae y procesa contenido web en texto limpio y compatible con LLM usando Jina AI Reader. Admite análisis avanzado de contenido, recopilación de enlaces y múltiples formatos de salida con opciones de procesamiento configurables.

Entrada

ParámetroTipoObligatorioDescripción
urlstringLa URL para leer y convertir a markdown
useReaderLMv2booleanNoSi se debe usar ReaderLM-v2 para mejor calidad (3x costo de tokens)
gatherLinksbooleanNoSi se deben recopilar todos los enlaces al final
jsonResponsebooleanNoSi se debe devolver la respuesta en formato JSON
apiKeystringTu clave API de Jina AI
withImagesummarybooleanNoRecopilar todas las imágenes de la página con metadatos
retainImagesstringNoControl de inclusión de imágenes: "none" elimina todas, "all" mantiene todas
returnFormatstringNoFormato de salida: markdown, html, text, screenshot o pageshot
withIframebooleanNoIncluir contenido de iframe en la extracción
withShadowDombooleanNoExtraer contenido de Shadow DOM
noCachebooleanNoOmitir contenido en caché para recuperación en tiempo real
withGeneratedAltbooleanNoGenerar texto alternativo para imágenes usando VLM
robotsTxtstringNoUser-Agent del bot para verificación de robots.txt
dntbooleanNoDo Not Track - evita almacenamiento en caché/seguimiento
noGfmbooleanNoDeshabilitar GitHub Flavored Markdown

Salida

ParámetroTipoDescripción
contentstringEl contenido extraído de la URL, procesado en texto limpio y compatible con LLM
linksarrayLista de enlaces encontrados en la página (cuando gatherLinks o withLinksummary está activado)
imagesarrayLista de imágenes encontradas en la página (cuando withImagesummary está activado)

Busca en la web y devuelve los 5 mejores resultados con contenido compatible con LLM. Cada resultado se procesa automáticamente a través de la API de Jina Reader. Admite filtrado geográfico, restricciones de sitios y paginación.

Entrada

ParámetroTipoObligatorioDescripción
qstringCadena de consulta de búsqueda
apiKeystringTu clave API de Jina AI
numnumberNoNúmero máximo de resultados por página (predeterminado: 5)
sitestringNoRestringir resultados a dominio(s) específicos. Puede ser separado por comas para múltiples sitios (ej., "jina.ai,github.com")
withFaviconbooleanNoIncluir favicons de sitios web en los resultados
withImagesummarybooleanNoRecopilar todas las imágenes de las páginas de resultados con metadatos
withLinksummarybooleanNoRecopilar todos los enlaces de las páginas de resultados
retainImagesstringNoControl de inclusión de imágenes: "none" elimina todas, "all" mantiene todas
noCachebooleanNoOmitir contenido en caché para recuperación en tiempo real
withGeneratedAltbooleanNoGenerar texto alternativo para imágenes usando VLM
respondWithstringNoEstablecer como "no-content" para obtener solo metadatos sin contenido de página
returnFormatstringNoFormato de salida: markdown, html, text, screenshot o pageshot

Salida

ParámetroTipoDescripción
resultsarrayArray de resultados de búsqueda, cada uno contiene título, descripción, url y contenido compatible con LLM

Notas

  • Categoría: tools
  • Tipo: jina
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started