Sim

Firecrawl

Rastrea o busca en la web

Firecrawl es una potente API de extracción de contenido y web scraping que se integra perfectamente en Sim, permitiendo a los desarrolladores extraer contenido limpio y estructurado de cualquier sitio web. Esta integración proporciona una forma sencilla de transformar páginas web en formatos de datos utilizables como Markdown y HTML, preservando el contenido esencial.

Con Firecrawl en Sim, puedes:

  • Extraer contenido limpio: Eliminar anuncios, elementos de navegación y otras distracciones para obtener solo el contenido principal
  • Convertir a formatos estructurados: Transformar páginas web en Markdown, HTML o JSON
  • Capturar metadatos: Extraer metadatos SEO, etiquetas Open Graph y otra información de la página
  • Manejar sitios con uso intensivo de JavaScript: Procesar contenido de aplicaciones web modernas que dependen de JavaScript
  • Filtrar contenido: Enfocarse en partes específicas de una página usando selectores CSS
  • Procesar a escala: Manejar necesidades de scraping de alto volumen con una API confiable
  • Buscar en la web: Realizar búsquedas web inteligentes y obtener resultados estructurados
  • Rastrear sitios completos: Rastrear múltiples páginas de un sitio web y agregar su contenido

En Sim, la integración de Firecrawl permite a tus agentes acceder y procesar contenido web de forma programática como parte de sus flujos de trabajo. Las operaciones compatibles incluyen:

  • Scrape: Extraer contenido estructurado (Markdown, HTML, metadatos) de una sola página web.
  • Search: Buscar información en la web utilizando las capacidades de búsqueda inteligente de Firecrawl.
  • Crawl: Rastrear múltiples páginas de un sitio web, devolviendo contenido estructurado y metadatos para cada página.

Esto permite a tus agentes recopilar información de sitios web, extraer datos estructurados y utilizar esa información para tomar decisiones o generar ideas, todo sin tener que navegar por las complejidades del análisis de HTML crudo o la automatización del navegador. Simplemente configura el bloque Firecrawl con tu clave API, selecciona la operación (Scrape, Search o Crawl) y proporciona los parámetros relevantes. Tus agentes pueden comenzar inmediatamente a trabajar con contenido web en un formato limpio y estructurado.

Instrucciones de uso

Extrae contenido de cualquier sitio web con web scraping avanzado o busca información en la web. Obtén datos limpios y estructurados de páginas web con opciones para centrarte en el contenido principal, o busca información de forma inteligente a través de la web.

Herramientas

firecrawl_scrape

Extrae contenido estructurado de páginas web con soporte integral de metadatos. Convierte el contenido a markdown o HTML mientras captura metadatos SEO, etiquetas Open Graph e información de la página.

Entrada

ParámetroTipoObligatorioDescripción
urlstringLa URL de la que extraer contenido
scrapeOptionsjsonNoOpciones para la extracción de contenido
apiKeystringClave API de Firecrawl

Salida

ParámetroTipoDescripción
markdownstringContenido de la página en formato markdown
htmlstringContenido HTML sin procesar de la página
metadataobjectMetadatos de la página incluyendo información SEO y Open Graph

Busca información en la web usando Firecrawl

Entrada

ParámetroTipoObligatorioDescripción
querystringLa consulta de búsqueda a utilizar
apiKeystringClave API de Firecrawl

Salida

ParámetroTipoDescripción
dataarrayDatos de resultados de búsqueda

firecrawl_crawl

Rastrea sitios web completos y extrae contenido estructurado de todas las páginas accesibles

Entrada

ParámetroTipoObligatorioDescripción
urlstringLa URL del sitio web a rastrear
limitnumberNoNúmero máximo de páginas a rastrear (predeterminado: 100)
onlyMainContentbooleanNoExtraer solo el contenido principal de las páginas
apiKeystringClave API de Firecrawl

Salida

ParámetroTipoDescripción
pagesarrayArray de páginas rastreadas con su contenido y metadatos

Notas

  • Categoría: tools
  • Tipo: firecrawl
Firecrawl