Firecrawl

Firecrawl es una potente API de extracción de contenido y web scraping que se integra perfectamente en Sim, permitiendo a los desarrolladores extraer contenido limpio y estructurado de cualquier sitio web. Esta integración proporciona una forma sencilla de transformar páginas web en formatos de datos utilizables como Markdown y HTML, preservando el contenido esencial.

Con Firecrawl en Sim, puedes:

Extraer contenido limpio: Eliminar anuncios, elementos de navegación y otras distracciones para obtener solo el contenido principal
Convertir a formatos estructurados: Transformar páginas web en Markdown, HTML o JSON
Capturar metadatos: Extraer metadatos SEO, etiquetas Open Graph y otra información de la página
Manejar sitios con uso intensivo de JavaScript: Procesar contenido de aplicaciones web modernas que dependen de JavaScript
Filtrar contenido: Enfocarse en partes específicas de una página usando selectores CSS
Procesar a escala: Manejar necesidades de scraping de alto volumen con una API confiable
Buscar en la web: Realizar búsquedas web inteligentes y obtener resultados estructurados
Rastrear sitios completos: Rastrear múltiples páginas de un sitio web y agregar su contenido

En Sim, la integración de Firecrawl permite a tus agentes acceder y procesar contenido web de forma programática como parte de sus flujos de trabajo. Las operaciones compatibles incluyen:

Scrape: Extraer contenido estructurado (Markdown, HTML, metadatos) de una sola página web.
Search: Buscar información en la web utilizando las capacidades de búsqueda inteligente de Firecrawl.
Crawl: Rastrear múltiples páginas de un sitio web, devolviendo contenido estructurado y metadatos para cada página.

Esto permite a tus agentes recopilar información de sitios web, extraer datos estructurados y utilizar esa información para tomar decisiones o generar ideas, todo sin tener que navegar por las complejidades del análisis de HTML crudo o la automatización del navegador. Simplemente configura el bloque Firecrawl con tu clave API, selecciona la operación (Scrape, Search o Crawl) y proporciona los parámetros relevantes. Tus agentes pueden comenzar inmediatamente a trabajar con contenido web en un formato limpio y estructurado.

Instrucciones de uso

Integra Firecrawl en el flujo de trabajo. Extrae datos de páginas, busca en la web, rastrea sitios completos, mapea estructuras de URL y extrae datos estructurados con IA.

Herramientas

`firecrawl_scrape`

Extrae contenido estructurado de páginas web con soporte integral de metadatos. Convierte el contenido a markdown o HTML mientras captura metadatos SEO, etiquetas Open Graph e información de la página.

Entrada

Parámetro	Tipo	Obligatorio	Descripción
`url`	string	Sí	La URL de la que extraer contenido
`scrapeOptions`	json	No	Opciones para la extracción de contenido
`apiKey`	string	Sí	Clave API de Firecrawl

Salida

Parámetro	Tipo	Descripción
`markdown`	string	Contenido de la página en formato markdown
`html`	string	Contenido HTML sin procesar de la página
`metadata`	object	Metadatos de la página incluyendo información SEO y Open Graph

`firecrawl_search`

Busca información en la web usando Firecrawl

Entrada

Parámetro	Tipo	Obligatorio	Descripción
`query`	string	Sí	La consulta de búsqueda a utilizar
`apiKey`	string	Sí	Clave API de Firecrawl

Salida

Parámetro	Tipo	Descripción
`data`	array	Datos de resultados de búsqueda

`firecrawl_crawl`

Rastrea sitios web completos y extrae contenido estructurado de todas las páginas accesibles

Entrada

Parámetro	Tipo	Obligatorio	Descripción
`url`	string	Sí	La URL del sitio web a rastrear
`limit`	number	No	Número máximo de páginas a rastrear (predeterminado: 100)
`onlyMainContent`	boolean	No	Extraer solo el contenido principal de las páginas
`apiKey`	string	Sí	Clave API de Firecrawl

Salida

Parámetro	Tipo	Descripción
`pages`	array	Array de páginas rastreadas con su contenido y metadatos

`firecrawl_map`

Obtén una lista completa de URLs de cualquier sitio web de forma rápida y confiable. Útil para descubrir todas las páginas de un sitio sin necesidad de rastrearlas.

Entrada

Parámetro	Tipo	Obligatorio	Descripción
`url`	string	Sí	La URL base para mapear y descubrir enlaces
`search`	string	No	Filtrar resultados por relevancia a un término de búsqueda (ej., "blog")
`sitemap`	string	No	Controla el uso del sitemap: "skip", "include" (predeterminado), o "only"
`includeSubdomains`	boolean	No	Incluir URLs de subdominios (predeterminado: true)
`ignoreQueryParameters`	boolean	No	Excluir URLs que contengan cadenas de consulta (predeterminado: true)
`limit`	number	No	Número máximo de enlaces a devolver (máx: 100.000, predeterminado: 5.000)
`timeout`	number	No	Tiempo de espera de la solicitud en milisegundos
`location`	json	No	Contexto geográfico para proxy (país, idiomas)
`apiKey`	string	Sí	Clave API de Firecrawl

Salida

Parámetro	Tipo	Descripción
`success`	boolean	Si la operación de mapeo fue exitosa
`links`	array	Array de URLs descubiertas del sitio web

`firecrawl_extract`

Extrae datos estructurados de páginas web completas utilizando instrucciones en lenguaje natural y esquema JSON. Función agente potente para la extracción inteligente de datos.

Entrada

Parámetro	Tipo	Obligatorio	Descripción
`urls`	json	Sí	Array de URLs de las que extraer datos (admite formato glob)
`prompt`	string	No	Instrucciones en lenguaje natural para el proceso de extracción
`schema`	json	No	Esquema JSON que define la estructura de los datos a extraer
`enableWebSearch`	boolean	No	Habilitar búsqueda web para encontrar información complementaria (predeterminado: false)
`ignoreSitemap`	boolean	No	Ignorar archivos sitemap.xml durante el escaneo (predeterminado: false)
`includeSubdomains`	boolean	No	Extender el escaneo a subdominios (predeterminado: true)
`showSources`	boolean	No	Devolver fuentes de datos en la respuesta (predeterminado: false)
`ignoreInvalidURLs`	boolean	No	Omitir URLs inválidas en el array (predeterminado: true)
`scrapeOptions`	json	No	Opciones avanzadas de configuración de extracción
`apiKey`	string	Sí	Clave API de Firecrawl

Salida

Parámetro	Tipo	Descripción
`success`	boolean	Si la operación de extracción fue exitosa
`data`	object	Datos estructurados extraídos según el esquema o indicación

`firecrawl_agent`

Agente autónomo de extracción de datos web. Busca y recopila información basándose en instrucciones en lenguaje natural sin requerir URLs específicas.

Entrada

Parámetro	Tipo	Obligatorio	Descripción
`prompt`	string	Sí	Descripción en lenguaje natural de los datos a extraer (máx. 10.000 caracteres)
`urls`	json	No	Array opcional de URLs en las que enfocar al agente
`schema`	json	No	Esquema JSON que define la estructura de los datos a extraer
`maxCredits`	number	No	Créditos máximos a gastar en esta tarea del agente
`strictConstrainToURLs`	boolean	No	Si es true, el agente solo visitará las URLs proporcionadas en el array urls
`apiKey`	string	Sí	Clave API de Firecrawl

Salida

Parámetro	Tipo	Descripción
`success`	boolean	Si la operación del agente fue exitosa
`status`	string	Estado actual del trabajo del agente (processing, completed, failed)
`data`	object	Datos extraídos por el agente
`creditsUsed`	number	Número de créditos consumidos por esta tarea del agente
`expiresAt`	string	Marca de tiempo de cuándo expiran los resultados (24 horas)
`sources`	object	Array de URLs fuente utilizadas por el agente

Firecrawl

On this page