Firecrawl est une API puissante de web scraping et d'extraction de contenu qui s'intègre parfaitement à Sim, permettant aux développeurs d'extraire du contenu structuré et épuré de n'importe quel site web. Cette intégration offre un moyen simple de transformer des pages web en formats de données utilisables comme Markdown et HTML tout en préservant le contenu essentiel.
Avec Firecrawl dans Sim, vous pouvez :
- Extraire du contenu épuré : supprimer les publicités, les éléments de navigation et autres distractions pour obtenir uniquement le contenu principal
- Convertir en formats structurés : transformer des pages web en Markdown, HTML ou JSON
- Capturer les métadonnées : extraire les métadonnées SEO, les balises Open Graph et autres informations de page
- Gérer les sites riches en JavaScript : traiter le contenu des applications web modernes qui reposent sur JavaScript
- Filtrer le contenu : se concentrer sur des parties spécifiques d'une page en utilisant des sélecteurs CSS
- Traiter à grande échelle : gérer des besoins de scraping à haut volume avec une API fiable
- Rechercher sur le web : effectuer des recherches web intelligentes et récupérer des résultats structurés
- Explorer des sites entiers : parcourir plusieurs pages d'un site web et agréger leur contenu
Dans Sim, l'intégration de Firecrawl permet à vos agents d'accéder et de traiter le contenu web de manière programmatique dans le cadre de leurs flux de travail. Les opérations prises en charge comprennent :
- Scrape : extraire du contenu structuré (Markdown, HTML, métadonnées) d'une seule page web.
- Search : rechercher des informations sur le web en utilisant les capacités de recherche intelligente de Firecrawl.
- Crawl : explorer plusieurs pages d'un site web, en retournant du contenu structuré et des métadonnées pour chaque page.
Cela permet à vos agents de recueillir des informations à partir de sites web, d'extraire des données structurées et d'utiliser ces informations pour prendre des décisions ou générer des insights — le tout sans avoir à naviguer dans les complexités de l'analyse HTML brute ou de l'automatisation du navigateur. Configurez simplement le bloc Firecrawl avec votre clé API, sélectionnez l'opération (Scrape, Search ou Crawl) et fournissez les paramètres pertinents. Vos agents peuvent immédiatement commencer à travailler avec du contenu web dans un format propre et structuré.
Instructions d'utilisation
Intégrez Firecrawl dans votre flux de travail. Extrayez des pages, recherchez sur le web, explorez des sites entiers, cartographiez les structures d'URL et extrayez des données structurées avec l'IA.
Outils
firecrawl_scrape
Extrayez du contenu structuré à partir de pages web avec une prise en charge complète des métadonnées. Convertit le contenu en markdown ou HTML tout en capturant les métadonnées SEO, les balises Open Graph et les informations de la page.
Entrée
| Paramètre | Type | Obligatoire | Description |
|---|---|---|---|
url | string | Oui | L'URL à partir de laquelle extraire le contenu |
scrapeOptions | json | Non | Options pour l'extraction de contenu |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
| Paramètre | Type | Description |
|---|---|---|
markdown | string | Contenu de la page au format markdown |
html | string | Contenu HTML brut de la page |
metadata | object | Métadonnées de la page incluant les informations SEO et Open Graph |
firecrawl_search
Recherchez des informations sur le web en utilisant Firecrawl
Entrée
| Paramètre | Type | Obligatoire | Description |
|---|---|---|---|
query | string | Oui | La requête de recherche à utiliser |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
| Paramètre | Type | Description |
|---|---|---|
data | array | Données des résultats de recherche |
firecrawl_crawl
Explorez des sites web entiers et extrayez du contenu structuré de toutes les pages accessibles
Entrée
| Paramètre | Type | Obligatoire | Description |
|---|---|---|---|
url | string | Oui | L'URL du site web à explorer |
limit | number | Non | Nombre maximum de pages à explorer (par défaut : 100) |
onlyMainContent | boolean | Non | Extraire uniquement le contenu principal des pages |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
| Paramètre | Type | Description |
|---|---|---|
pages | tableau | Tableau des pages explorées avec leur contenu et métadonnées |
firecrawl_map
Obtenez une liste complète d'URLs de n'importe quel site web rapidement et de manière fiable. Utile pour découvrir toutes les pages d'un site sans avoir à les explorer.
Entrée
| Paramètre | Type | Obligatoire | Description |
|---|---|---|---|
url | string | Oui | L'URL de base à cartographier et à partir de laquelle découvrir des liens |
search | string | Non | Filtrer les résultats par pertinence selon un terme de recherche (ex. : "blog") |
sitemap | string | Non | Contrôle l'utilisation du sitemap : "skip", "include" (par défaut), ou "only" |
includeSubdomains | boolean | Non | Inclure ou non les URLs des sous-domaines (par défaut : true) |
ignoreQueryParameters | boolean | Non | Exclure les URLs contenant des chaînes de requête (par défaut : true) |
limit | number | Non | Nombre maximum de liens à retourner (max : 100 000, par défaut : 5 000) |
timeout | number | Non | Délai d'attente de la requête en millisecondes |
location | json | Non | Contexte géographique pour le proxy (pays, langues) |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
| Paramètre | Type | Description |
|---|---|---|
success | boolean | Indique si l'opération de cartographie a réussi |
links | array | Tableau des URLs découvertes sur le site web |
firecrawl_extract
Extrayez des données structurées de pages web entières à l'aide d'instructions en langage naturel et de schémas JSON. Fonctionnalité agentique puissante pour l'extraction intelligente de données.
Entrée
| Paramètre | Type | Obligatoire | Description |
|---|---|---|---|
urls | json | Oui | Tableau d'URLs à partir desquelles extraire des données (supporte le format glob) |
prompt | string | Non | Instructions en langage naturel pour le processus d'extraction |
schema | json | Non | Schéma JSON définissant la structure des données à extraire |
enableWebSearch | boolean | Non | Activer la recherche web pour trouver des informations complémentaires (par défaut : false) |
ignoreSitemap | boolean | Non | Ignorer les fichiers sitemap.xml pendant l'analyse (par défaut : false) |
includeSubdomains | boolean | Non | Étendre l'analyse aux sous-domaines (par défaut : true) |
showSources | boolean | Non | Renvoyer les sources de données dans la réponse (par défaut : false) |
ignoreInvalidURLs | boolean | Non | Ignorer les URLs invalides dans le tableau (par défaut : true) |
scrapeOptions | json | Non | Options de configuration avancées pour l'extraction |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
| Paramètre | Type | Description |
|---|---|---|
success | boolean | Indique si l'opération d'extraction a réussi |
data | object | Données structurées extraites selon le schéma ou l'invite |
Remarques
- Catégorie :
tools - Type :
firecrawl