Firecrawl

Firecrawl est une API puissante de web scraping et d'extraction de contenu qui s'intègre parfaitement à Sim, permettant aux développeurs d'extraire du contenu structuré et épuré de n'importe quel site web. Cette intégration offre un moyen simple de transformer des pages web en formats de données utilisables comme Markdown et HTML tout en préservant le contenu essentiel.

Avec Firecrawl dans Sim, vous pouvez :

Extraire du contenu épuré : supprimer les publicités, les éléments de navigation et autres distractions pour obtenir uniquement le contenu principal
Convertir en formats structurés : transformer des pages web en Markdown, HTML ou JSON
Capturer les métadonnées : extraire les métadonnées SEO, les balises Open Graph et autres informations de page
Gérer les sites riches en JavaScript : traiter le contenu des applications web modernes qui reposent sur JavaScript
Filtrer le contenu : se concentrer sur des parties spécifiques d'une page en utilisant des sélecteurs CSS
Traiter à grande échelle : gérer des besoins de scraping à haut volume avec une API fiable
Rechercher sur le web : effectuer des recherches web intelligentes et récupérer des résultats structurés
Explorer des sites entiers : parcourir plusieurs pages d'un site web et agréger leur contenu

Dans Sim, l'intégration de Firecrawl permet à vos agents d'accéder et de traiter le contenu web de manière programmatique dans le cadre de leurs flux de travail. Les opérations prises en charge comprennent :

Scrape : extraire du contenu structuré (Markdown, HTML, métadonnées) d'une seule page web.
Search : rechercher des informations sur le web en utilisant les capacités de recherche intelligente de Firecrawl.
Crawl : explorer plusieurs pages d'un site web, en retournant du contenu structuré et des métadonnées pour chaque page.

Cela permet à vos agents de recueillir des informations à partir de sites web, d'extraire des données structurées et d'utiliser ces informations pour prendre des décisions ou générer des insights — le tout sans avoir à naviguer dans les complexités de l'analyse HTML brute ou de l'automatisation du navigateur. Configurez simplement le bloc Firecrawl avec votre clé API, sélectionnez l'opération (Scrape, Search ou Crawl) et fournissez les paramètres pertinents. Vos agents peuvent immédiatement commencer à travailler avec du contenu web dans un format propre et structuré.

Instructions d'utilisation

Intégrez Firecrawl dans votre flux de travail. Extrayez des pages, recherchez sur le web, explorez des sites entiers, cartographiez les structures d'URL et extrayez des données structurées avec l'IA.

Outils

`firecrawl_scrape`

Extrayez du contenu structuré à partir de pages web avec une prise en charge complète des métadonnées. Convertit le contenu en markdown ou HTML tout en capturant les métadonnées SEO, les balises Open Graph et les informations de la page.

Entrée

Paramètre	Type	Obligatoire	Description
`url`	string	Oui	L'URL à partir de laquelle extraire le contenu
`scrapeOptions`	json	Non	Options pour l'extraction de contenu
`apiKey`	string	Oui	Clé API Firecrawl

Sortie

Paramètre	Type	Description
`markdown`	string	Contenu de la page au format markdown
`html`	string	Contenu HTML brut de la page
`metadata`	object	Métadonnées de la page incluant les informations SEO et Open Graph

`firecrawl_search`

Recherchez des informations sur le web en utilisant Firecrawl

Entrée

Paramètre	Type	Obligatoire	Description
`query`	string	Oui	La requête de recherche à utiliser
`apiKey`	string	Oui	Clé API Firecrawl

Sortie

Paramètre	Type	Description
`data`	array	Données des résultats de recherche

`firecrawl_crawl`

Explorez des sites web entiers et extrayez du contenu structuré de toutes les pages accessibles

Entrée

Paramètre	Type	Obligatoire	Description
`url`	string	Oui	L'URL du site web à explorer
`limit`	number	Non	Nombre maximum de pages à explorer (par défaut : 100)
`onlyMainContent`	boolean	Non	Extraire uniquement le contenu principal des pages
`apiKey`	string	Oui	Clé API Firecrawl

Sortie

Paramètre	Type	Description
`pages`	tableau	Tableau des pages explorées avec leur contenu et métadonnées

`firecrawl_map`

Obtenez une liste complète d'URLs de n'importe quel site web rapidement et de manière fiable. Utile pour découvrir toutes les pages d'un site sans avoir à les explorer.

Entrée

Paramètre	Type	Obligatoire	Description
`url`	string	Oui	L'URL de base à cartographier et à partir de laquelle découvrir des liens
`search`	string	Non	Filtrer les résultats par pertinence selon un terme de recherche (ex. : "blog")
`sitemap`	string	Non	Contrôle l'utilisation du sitemap : "skip", "include" (par défaut), ou "only"
`includeSubdomains`	boolean	Non	Inclure ou non les URLs des sous-domaines (par défaut : true)
`ignoreQueryParameters`	boolean	Non	Exclure les URLs contenant des chaînes de requête (par défaut : true)
`limit`	number	Non	Nombre maximum de liens à retourner (max : 100 000, par défaut : 5 000)
`timeout`	number	Non	Délai d'attente de la requête en millisecondes
`location`	json	Non	Contexte géographique pour le proxy (pays, langues)
`apiKey`	string	Oui	Clé API Firecrawl

Sortie

Paramètre	Type	Description
`success`	boolean	Indique si l'opération de cartographie a réussi
`links`	array	Tableau des URLs découvertes sur le site web

`firecrawl_extract`

Extrayez des données structurées de pages web entières à l'aide d'instructions en langage naturel et de schémas JSON. Fonctionnalité agentique puissante pour l'extraction intelligente de données.

Entrée

Paramètre	Type	Obligatoire	Description
`urls`	json	Oui	Tableau d'URLs à partir desquelles extraire des données (supporte le format glob)
`prompt`	string	Non	Instructions en langage naturel pour le processus d'extraction
`schema`	json	Non	Schéma JSON définissant la structure des données à extraire
`enableWebSearch`	boolean	Non	Activer la recherche web pour trouver des informations complémentaires (par défaut : false)
`ignoreSitemap`	boolean	Non	Ignorer les fichiers sitemap.xml pendant l'analyse (par défaut : false)
`includeSubdomains`	boolean	Non	Étendre l'analyse aux sous-domaines (par défaut : true)
`showSources`	boolean	Non	Renvoyer les sources de données dans la réponse (par défaut : false)
`ignoreInvalidURLs`	boolean	Non	Ignorer les URLs invalides dans le tableau (par défaut : true)
`scrapeOptions`	json	Non	Options de configuration avancées pour l'extraction
`apiKey`	string	Oui	Clé API Firecrawl

Sortie

Paramètre	Type	Description
`success`	boolean	Indique si l'opération d'extraction a réussi
`data`	object	Données structurées extraites selon le schéma ou l'invite

`firecrawl_agent`

Agent autonome d'extraction de données web. Recherche et collecte des informations basées sur des instructions en langage naturel sans nécessiter d'URLs spécifiques.

Entrée

Paramètre	Type	Obligatoire	Description
`prompt`	string	Oui	Description en langage naturel des données à extraire (max 10 000 caractères)
`urls`	json	Non	Tableau optionnel d'URLs sur lesquelles concentrer l'agent
`schema`	json	Non	Schéma JSON définissant la structure des données à extraire
`maxCredits`	number	Non	Nombre maximum de crédits à dépenser pour cette tâche d'agent
`strictConstrainToURLs`	boolean	Non	Si true, l'agent visitera uniquement les URLs fournies dans le tableau urls
`apiKey`	string	Oui	Clé API Firecrawl

Sortie

Paramètre	Type	Description
`success`	boolean	Indique si l'opération de l'agent a réussi
`status`	string	Statut actuel de la tâche de l'agent (processing, completed, failed)
`data`	object	Données extraites par l'agent
`creditsUsed`	number	Nombre de crédits consommés par cette tâche d'agent
`expiresAt`	string	Horodatage d'expiration des résultats (24 heures)
`sources`	object	Tableau des URLs sources utilisées par l'agent

Firecrawl

On this page