Firecrawl
Rastrea o busca en la web
Firecrawl es una potente API de extracción de contenido y web scraping que se integra perfectamente en Sim, permitiendo a los desarrolladores extraer contenido limpio y estructurado de cualquier sitio web. Esta integración proporciona una forma sencilla de transformar páginas web en formatos de datos utilizables como Markdown y HTML, preservando el contenido esencial.
Con Firecrawl en Sim, puedes:
- Extraer contenido limpio: Eliminar anuncios, elementos de navegación y otras distracciones para obtener solo el contenido principal
- Convertir a formatos estructurados: Transformar páginas web en Markdown, HTML o JSON
- Capturar metadatos: Extraer metadatos SEO, etiquetas Open Graph y otra información de la página
- Manejar sitios con uso intensivo de JavaScript: Procesar contenido de aplicaciones web modernas que dependen de JavaScript
- Filtrar contenido: Enfocarse en partes específicas de una página usando selectores CSS
- Procesar a escala: Manejar necesidades de scraping de alto volumen con una API confiable
- Buscar en la web: Realizar búsquedas web inteligentes y obtener resultados estructurados
- Rastrear sitios completos: Rastrear múltiples páginas de un sitio web y agregar su contenido
En Sim, la integración de Firecrawl permite a tus agentes acceder y procesar contenido web de forma programática como parte de sus flujos de trabajo. Las operaciones compatibles incluyen:
- Scrape: Extraer contenido estructurado (Markdown, HTML, metadatos) de una sola página web.
- Search: Buscar información en la web utilizando las capacidades de búsqueda inteligente de Firecrawl.
- Crawl: Rastrear múltiples páginas de un sitio web, devolviendo contenido estructurado y metadatos para cada página.
Esto permite a tus agentes recopilar información de sitios web, extraer datos estructurados y utilizar esa información para tomar decisiones o generar ideas, todo sin tener que navegar por las complejidades del análisis de HTML crudo o la automatización del navegador. Simplemente configura el bloque Firecrawl con tu clave API, selecciona la operación (Scrape, Search o Crawl) y proporciona los parámetros relevantes. Tus agentes pueden comenzar inmediatamente a trabajar con contenido web en un formato limpio y estructurado.
Instrucciones de uso
Extrae contenido de cualquier sitio web con web scraping avanzado o busca información en la web. Obtén datos limpios y estructurados de páginas web con opciones para centrarte en el contenido principal, o busca información de forma inteligente a través de la web.
Herramientas
firecrawl_scrape
Extrae contenido estructurado de páginas web con soporte integral de metadatos. Convierte el contenido a markdown o HTML mientras captura metadatos SEO, etiquetas Open Graph e información de la página.
Entrada
Parámetro | Tipo | Obligatorio | Descripción |
---|---|---|---|
url | string | Sí | La URL de la que extraer contenido |
scrapeOptions | json | No | Opciones para la extracción de contenido |
apiKey | string | Sí | Clave API de Firecrawl |
Salida
Parámetro | Tipo | Descripción |
---|---|---|
markdown | string | Contenido de la página en formato markdown |
html | string | Contenido HTML sin procesar de la página |
metadata | object | Metadatos de la página incluyendo información SEO y Open Graph |
firecrawl_search
Busca información en la web usando Firecrawl
Entrada
Parámetro | Tipo | Obligatorio | Descripción |
---|---|---|---|
query | string | Sí | La consulta de búsqueda a utilizar |
apiKey | string | Sí | Clave API de Firecrawl |
Salida
Parámetro | Tipo | Descripción |
---|---|---|
data | array | Datos de resultados de búsqueda |
firecrawl_crawl
Rastrea sitios web completos y extrae contenido estructurado de todas las páginas accesibles
Entrada
Parámetro | Tipo | Obligatorio | Descripción |
---|---|---|---|
url | string | Sí | La URL del sitio web a rastrear |
limit | number | No | Número máximo de páginas a rastrear (predeterminado: 100) |
onlyMainContent | boolean | No | Extraer solo el contenido principal de las páginas |
apiKey | string | Sí | Clave API de Firecrawl |
Salida
Parámetro | Tipo | Descripción |
---|---|---|
pages | array | Array de páginas rastreadas con su contenido y metadatos |
Notas
- Categoría:
tools
- Tipo:
firecrawl