Firecrawl
Extraire, rechercher, explorer, cartographier et extraire des données web
Firecrawl est une API puissante de web scraping et d'extraction de contenu qui s'intègre parfaitement à Sim, permettant aux développeurs d'extraire du contenu structuré et épuré de n'importe quel site web. Cette intégration offre un moyen simple de transformer des pages web en formats de données utilisables comme Markdown et HTML tout en préservant le contenu essentiel.
Avec Firecrawl dans Sim, vous pouvez :
- Extraire du contenu épuré : supprimer les publicités, les éléments de navigation et autres distractions pour obtenir uniquement le contenu principal
- Convertir en formats structurés : transformer des pages web en Markdown, HTML ou JSON
- Capturer les métadonnées : extraire les métadonnées SEO, les balises Open Graph et autres informations de page
- Gérer les sites riches en JavaScript : traiter le contenu des applications web modernes qui reposent sur JavaScript
- Filtrer le contenu : se concentrer sur des parties spécifiques d'une page en utilisant des sélecteurs CSS
- Traiter à grande échelle : gérer des besoins de scraping à haut volume avec une API fiable
- Rechercher sur le web : effectuer des recherches web intelligentes et récupérer des résultats structurés
- Explorer des sites entiers : parcourir plusieurs pages d'un site web et agréger leur contenu
Dans Sim, l'intégration de Firecrawl permet à vos agents d'accéder et de traiter le contenu web de manière programmatique dans le cadre de leurs flux de travail. Les opérations prises en charge comprennent :
- Scrape : extraire du contenu structuré (Markdown, HTML, métadonnées) d'une seule page web.
- Search : rechercher des informations sur le web en utilisant les capacités de recherche intelligente de Firecrawl.
- Crawl : explorer plusieurs pages d'un site web, en retournant du contenu structuré et des métadonnées pour chaque page.
Cela permet à vos agents de recueillir des informations à partir de sites web, d'extraire des données structurées et d'utiliser ces informations pour prendre des décisions ou générer des insights — le tout sans avoir à naviguer dans les complexités de l'analyse HTML brute ou de l'automatisation du navigateur. Configurez simplement le bloc Firecrawl avec votre clé API, sélectionnez l'opération (Scrape, Search ou Crawl) et fournissez les paramètres pertinents. Vos agents peuvent immédiatement commencer à travailler avec du contenu web dans un format propre et structuré.
Intégrez Firecrawl dans votre flux de travail. Extrayez des pages, recherchez sur le web, explorez des sites entiers, cartographiez les structures d'URL et extrayez des données structurées avec l'IA.
Extrayez du contenu structuré à partir de pages web avec une prise en charge complète des métadonnées. Convertit le contenu en markdown ou HTML tout en capturant les métadonnées SEO, les balises Open Graph et les informations de la page.
| Paramètre | Type | Obligatoire | Description |
|---|
url | string | Oui | L'URL à partir de laquelle extraire le contenu |
scrapeOptions | json | Non | Options pour l'extraction de contenu |
apiKey | string | Oui | Clé API Firecrawl |
| Paramètre | Type | Description |
|---|
markdown | string | Contenu de la page au format markdown |
html | string | Contenu HTML brut de la page |
metadata | object | Métadonnées de la page incluant les informations SEO et Open Graph |
Recherchez des informations sur le web en utilisant Firecrawl
| Paramètre | Type | Obligatoire | Description |
|---|
query | string | Oui | La requête de recherche à utiliser |
apiKey | string | Oui | Clé API Firecrawl |
| Paramètre | Type | Description |
|---|
data | array | Données des résultats de recherche |
Explorez des sites web entiers et extrayez du contenu structuré de toutes les pages accessibles
| Paramètre | Type | Obligatoire | Description |
|---|
url | string | Oui | L'URL du site web à explorer |
limit | number | Non | Nombre maximum de pages à explorer (par défaut : 100) |
onlyMainContent | boolean | Non | Extraire uniquement le contenu principal des pages |
apiKey | string | Oui | Clé API Firecrawl |
| Paramètre | Type | Description |
|---|
pages | tableau | Tableau des pages explorées avec leur contenu et métadonnées |
Obtenez une liste complète d'URLs de n'importe quel site web rapidement et de manière fiable. Utile pour découvrir toutes les pages d'un site sans avoir à les explorer.
| Paramètre | Type | Obligatoire | Description |
|---|
url | string | Oui | L'URL de base à cartographier et à partir de laquelle découvrir des liens |
search | string | Non | Filtrer les résultats par pertinence selon un terme de recherche (ex. : "blog") |
sitemap | string | Non | Contrôle l'utilisation du sitemap : "skip", "include" (par défaut), ou "only" |
includeSubdomains | boolean | Non | Inclure ou non les URLs des sous-domaines (par défaut : true) |
ignoreQueryParameters | boolean | Non | Exclure les URLs contenant des chaînes de requête (par défaut : true) |
limit | number | Non | Nombre maximum de liens à retourner (max : 100 000, par défaut : 5 000) |
timeout | number | Non | Délai d'attente de la requête en millisecondes |
location | json | Non | Contexte géographique pour le proxy (pays, langues) |
apiKey | string | Oui | Clé API Firecrawl |
| Paramètre | Type | Description |
|---|
success | boolean | Indique si l'opération de cartographie a réussi |
links | array | Tableau des URLs découvertes sur le site web |
Extrayez des données structurées de pages web entières à l'aide d'instructions en langage naturel et de schémas JSON. Fonctionnalité agentique puissante pour l'extraction intelligente de données.
| Paramètre | Type | Obligatoire | Description |
|---|
urls | json | Oui | Tableau d'URLs à partir desquelles extraire des données (supporte le format glob) |
prompt | string | Non | Instructions en langage naturel pour le processus d'extraction |
schema | json | Non | Schéma JSON définissant la structure des données à extraire |
enableWebSearch | boolean | Non | Activer la recherche web pour trouver des informations complémentaires (par défaut : false) |
ignoreSitemap | boolean | Non | Ignorer les fichiers sitemap.xml pendant l'analyse (par défaut : false) |
includeSubdomains | boolean | Non | Étendre l'analyse aux sous-domaines (par défaut : true) |
showSources | boolean | Non | Renvoyer les sources de données dans la réponse (par défaut : false) |
ignoreInvalidURLs | boolean | Non | Ignorer les URLs invalides dans le tableau (par défaut : true) |
scrapeOptions | json | Non | Options de configuration avancées pour l'extraction |
apiKey | string | Oui | Clé API Firecrawl |
| Paramètre | Type | Description |
|---|
success | boolean | Indique si l'opération d'extraction a réussi |
data | object | Données structurées extraites selon le schéma ou l'invite |
Agent autonome d'extraction de données web. Recherche et collecte des informations basées sur des instructions en langage naturel sans nécessiter d'URLs spécifiques.
| Paramètre | Type | Obligatoire | Description |
|---|
prompt | string | Oui | Description en langage naturel des données à extraire (max 10 000 caractères) |
urls | json | Non | Tableau optionnel d'URLs sur lesquelles concentrer l'agent |
schema | json | Non | Schéma JSON définissant la structure des données à extraire |
maxCredits | number | Non | Nombre maximum de crédits à dépenser pour cette tâche d'agent |
strictConstrainToURLs | boolean | Non | Si true, l'agent visitera uniquement les URLs fournies dans le tableau urls |
apiKey | string | Oui | Clé API Firecrawl |
| Paramètre | Type | Description |
|---|
success | boolean | Indique si l'opération de l'agent a réussi |
status | string | Statut actuel de la tâche de l'agent (processing, completed, failed) |
data | object | Données extraites par l'agent |
creditsUsed | number | Nombre de crédits consommés par cette tâche d'agent |
expiresAt | string | Horodatage d'expiration des résultats (24 heures) |
sources | object | Tableau des URLs sources utilisées par l'agent |
- Catégorie :
tools
- Type :
firecrawl