Firecrawl
Raspa, busca, rastrea, mapea y extrae datos web
Firecrawl es una potente API de extracción de contenido y web scraping que se integra perfectamente en Sim, permitiendo a los desarrolladores extraer contenido limpio y estructurado de cualquier sitio web. Esta integración proporciona una forma sencilla de transformar páginas web en formatos de datos utilizables como Markdown y HTML, preservando el contenido esencial.
Con Firecrawl en Sim, puedes:
- Extraer contenido limpio: Eliminar anuncios, elementos de navegación y otras distracciones para obtener solo el contenido principal
- Convertir a formatos estructurados: Transformar páginas web en Markdown, HTML o JSON
- Capturar metadatos: Extraer metadatos SEO, etiquetas Open Graph y otra información de la página
- Manejar sitios con uso intensivo de JavaScript: Procesar contenido de aplicaciones web modernas que dependen de JavaScript
- Filtrar contenido: Enfocarse en partes específicas de una página usando selectores CSS
- Procesar a escala: Manejar necesidades de scraping de alto volumen con una API confiable
- Buscar en la web: Realizar búsquedas web inteligentes y obtener resultados estructurados
- Rastrear sitios completos: Rastrear múltiples páginas de un sitio web y agregar su contenido
En Sim, la integración de Firecrawl permite a tus agentes acceder y procesar contenido web de forma programática como parte de sus flujos de trabajo. Las operaciones compatibles incluyen:
- Scrape: Extraer contenido estructurado (Markdown, HTML, metadatos) de una sola página web.
- Search: Buscar información en la web utilizando las capacidades de búsqueda inteligente de Firecrawl.
- Crawl: Rastrear múltiples páginas de un sitio web, devolviendo contenido estructurado y metadatos para cada página.
Esto permite a tus agentes recopilar información de sitios web, extraer datos estructurados y utilizar esa información para tomar decisiones o generar ideas, todo sin tener que navegar por las complejidades del análisis de HTML crudo o la automatización del navegador. Simplemente configura el bloque Firecrawl con tu clave API, selecciona la operación (Scrape, Search o Crawl) y proporciona los parámetros relevantes. Tus agentes pueden comenzar inmediatamente a trabajar con contenido web en un formato limpio y estructurado.
Integra Firecrawl en el flujo de trabajo. Extrae datos de páginas, busca en la web, rastrea sitios completos, mapea estructuras de URL y extrae datos estructurados con IA.
Extrae contenido estructurado de páginas web con soporte integral de metadatos. Convierte el contenido a markdown o HTML mientras captura metadatos SEO, etiquetas Open Graph e información de la página.
| Parámetro | Tipo | Obligatorio | Descripción |
|---|
url | string | Sí | La URL de la que extraer contenido |
scrapeOptions | json | No | Opciones para la extracción de contenido |
apiKey | string | Sí | Clave API de Firecrawl |
| Parámetro | Tipo | Descripción |
|---|
markdown | string | Contenido de la página en formato markdown |
html | string | Contenido HTML sin procesar de la página |
metadata | object | Metadatos de la página incluyendo información SEO y Open Graph |
Busca información en la web usando Firecrawl
| Parámetro | Tipo | Obligatorio | Descripción |
|---|
query | string | Sí | La consulta de búsqueda a utilizar |
apiKey | string | Sí | Clave API de Firecrawl |
| Parámetro | Tipo | Descripción |
|---|
data | array | Datos de resultados de búsqueda |
Rastrea sitios web completos y extrae contenido estructurado de todas las páginas accesibles
| Parámetro | Tipo | Obligatorio | Descripción |
|---|
url | string | Sí | La URL del sitio web a rastrear |
limit | number | No | Número máximo de páginas a rastrear (predeterminado: 100) |
onlyMainContent | boolean | No | Extraer solo el contenido principal de las páginas |
apiKey | string | Sí | Clave API de Firecrawl |
| Parámetro | Tipo | Descripción |
|---|
pages | array | Array de páginas rastreadas con su contenido y metadatos |
Obtén una lista completa de URLs de cualquier sitio web de forma rápida y confiable. Útil para descubrir todas las páginas de un sitio sin necesidad de rastrearlas.
| Parámetro | Tipo | Obligatorio | Descripción |
|---|
url | string | Sí | La URL base para mapear y descubrir enlaces |
search | string | No | Filtrar resultados por relevancia a un término de búsqueda (ej., "blog") |
sitemap | string | No | Controla el uso del sitemap: "skip", "include" (predeterminado), o "only" |
includeSubdomains | boolean | No | Incluir URLs de subdominios (predeterminado: true) |
ignoreQueryParameters | boolean | No | Excluir URLs que contengan cadenas de consulta (predeterminado: true) |
limit | number | No | Número máximo de enlaces a devolver (máx: 100.000, predeterminado: 5.000) |
timeout | number | No | Tiempo de espera de la solicitud en milisegundos |
location | json | No | Contexto geográfico para proxy (país, idiomas) |
apiKey | string | Sí | Clave API de Firecrawl |
| Parámetro | Tipo | Descripción |
|---|
success | boolean | Si la operación de mapeo fue exitosa |
links | array | Array de URLs descubiertas del sitio web |
Extrae datos estructurados de páginas web completas utilizando instrucciones en lenguaje natural y esquema JSON. Función agente potente para la extracción inteligente de datos.
| Parámetro | Tipo | Obligatorio | Descripción |
|---|
urls | json | Sí | Array de URLs de las que extraer datos (admite formato glob) |
prompt | string | No | Instrucciones en lenguaje natural para el proceso de extracción |
schema | json | No | Esquema JSON que define la estructura de los datos a extraer |
enableWebSearch | boolean | No | Habilitar búsqueda web para encontrar información complementaria (predeterminado: false) |
ignoreSitemap | boolean | No | Ignorar archivos sitemap.xml durante el escaneo (predeterminado: false) |
includeSubdomains | boolean | No | Extender el escaneo a subdominios (predeterminado: true) |
showSources | boolean | No | Devolver fuentes de datos en la respuesta (predeterminado: false) |
ignoreInvalidURLs | boolean | No | Omitir URLs inválidas en el array (predeterminado: true) |
scrapeOptions | json | No | Opciones avanzadas de configuración de extracción |
apiKey | string | Sí | Clave API de Firecrawl |
| Parámetro | Tipo | Descripción |
|---|
success | boolean | Si la operación de extracción fue exitosa |
data | object | Datos estructurados extraídos según el esquema o indicación |
Agente autónomo de extracción de datos web. Busca y recopila información basándose en instrucciones en lenguaje natural sin requerir URLs específicas.
| Parámetro | Tipo | Obligatorio | Descripción |
|---|
prompt | string | Sí | Descripción en lenguaje natural de los datos a extraer (máx. 10.000 caracteres) |
urls | json | No | Array opcional de URLs en las que enfocar al agente |
schema | json | No | Esquema JSON que define la estructura de los datos a extraer |
maxCredits | number | No | Créditos máximos a gastar en esta tarea del agente |
strictConstrainToURLs | boolean | No | Si es true, el agente solo visitará las URLs proporcionadas en el array urls |
apiKey | string | Sí | Clave API de Firecrawl |
| Parámetro | Tipo | Descripción |
|---|
success | boolean | Si la operación del agente fue exitosa |
status | string | Estado actual del trabajo del agente (processing, completed, failed) |
data | object | Datos extraídos por el agente |
creditsUsed | number | Número de créditos consumidos por esta tarea del agente |
expiresAt | string | Marca de tiempo de cuándo expiran los resultados (24 horas) |
sources | object | Array de URLs fuente utilizadas por el agente |
- Categoría:
tools
- Tipo:
firecrawl