Sim

Firecrawl

Extraire, rechercher, explorer, cartographier et extraire des données web

Firecrawl est une API puissante de web scraping et d'extraction de contenu qui s'intègre parfaitement à Sim, permettant aux développeurs d'extraire du contenu structuré et épuré de n'importe quel site web. Cette intégration offre un moyen simple de transformer des pages web en formats de données utilisables comme Markdown et HTML tout en préservant le contenu essentiel.

Avec Firecrawl dans Sim, vous pouvez :

  • Extraire du contenu épuré : supprimer les publicités, les éléments de navigation et autres distractions pour obtenir uniquement le contenu principal
  • Convertir en formats structurés : transformer des pages web en Markdown, HTML ou JSON
  • Capturer les métadonnées : extraire les métadonnées SEO, les balises Open Graph et autres informations de page
  • Gérer les sites riches en JavaScript : traiter le contenu des applications web modernes qui reposent sur JavaScript
  • Filtrer le contenu : se concentrer sur des parties spécifiques d'une page en utilisant des sélecteurs CSS
  • Traiter à grande échelle : gérer des besoins de scraping à haut volume avec une API fiable
  • Rechercher sur le web : effectuer des recherches web intelligentes et récupérer des résultats structurés
  • Explorer des sites entiers : parcourir plusieurs pages d'un site web et agréger leur contenu

Dans Sim, l'intégration de Firecrawl permet à vos agents d'accéder et de traiter le contenu web de manière programmatique dans le cadre de leurs flux de travail. Les opérations prises en charge comprennent :

  • Scrape : extraire du contenu structuré (Markdown, HTML, métadonnées) d'une seule page web.
  • Search : rechercher des informations sur le web en utilisant les capacités de recherche intelligente de Firecrawl.
  • Crawl : explorer plusieurs pages d'un site web, en retournant du contenu structuré et des métadonnées pour chaque page.

Cela permet à vos agents de recueillir des informations à partir de sites web, d'extraire des données structurées et d'utiliser ces informations pour prendre des décisions ou générer des insights — le tout sans avoir à naviguer dans les complexités de l'analyse HTML brute ou de l'automatisation du navigateur. Configurez simplement le bloc Firecrawl avec votre clé API, sélectionnez l'opération (Scrape, Search ou Crawl) et fournissez les paramètres pertinents. Vos agents peuvent immédiatement commencer à travailler avec du contenu web dans un format propre et structuré.

Instructions d'utilisation

Intégrez Firecrawl dans votre flux de travail. Extrayez des pages, recherchez sur le web, explorez des sites entiers, cartographiez les structures d'URL et extrayez des données structurées avec l'IA.

Outils

firecrawl_scrape

Extrayez du contenu structuré à partir de pages web avec une prise en charge complète des métadonnées. Convertit le contenu en markdown ou HTML tout en capturant les métadonnées SEO, les balises Open Graph et les informations de la page.

Entrée

ParamètreTypeObligatoireDescription
urlstringOuiL'URL à partir de laquelle extraire le contenu
scrapeOptionsjsonNonOptions pour l'extraction de contenu
apiKeystringOuiClé API Firecrawl

Sortie

ParamètreTypeDescription
markdownstringContenu de la page au format markdown
htmlstringContenu HTML brut de la page
metadataobjectMétadonnées de la page incluant les informations SEO et Open Graph

Recherchez des informations sur le web en utilisant Firecrawl

Entrée

ParamètreTypeObligatoireDescription
querystringOuiLa requête de recherche à utiliser
apiKeystringOuiClé API Firecrawl

Sortie

ParamètreTypeDescription
dataarrayDonnées des résultats de recherche

firecrawl_crawl

Explorez des sites web entiers et extrayez du contenu structuré de toutes les pages accessibles

Entrée

ParamètreTypeObligatoireDescription
urlstringOuiL'URL du site web à explorer
limitnumberNonNombre maximum de pages à explorer (par défaut : 100)
onlyMainContentbooleanNonExtraire uniquement le contenu principal des pages
apiKeystringOuiClé API Firecrawl

Sortie

ParamètreTypeDescription
pagestableauTableau des pages explorées avec leur contenu et métadonnées

firecrawl_map

Obtenez une liste complète d'URLs de n'importe quel site web rapidement et de manière fiable. Utile pour découvrir toutes les pages d'un site sans avoir à les explorer.

Entrée

ParamètreTypeObligatoireDescription
urlstringOuiL'URL de base à cartographier et à partir de laquelle découvrir des liens
searchstringNonFiltrer les résultats par pertinence selon un terme de recherche (ex. : "blog")
sitemapstringNonContrôle l'utilisation du sitemap : "skip", "include" (par défaut), ou "only"
includeSubdomainsbooleanNonInclure ou non les URLs des sous-domaines (par défaut : true)
ignoreQueryParametersbooleanNonExclure les URLs contenant des chaînes de requête (par défaut : true)
limitnumberNonNombre maximum de liens à retourner (max : 100 000, par défaut : 5 000)
timeoutnumberNonDélai d'attente de la requête en millisecondes
locationjsonNonContexte géographique pour le proxy (pays, langues)
apiKeystringOuiClé API Firecrawl

Sortie

ParamètreTypeDescription
successbooleanIndique si l'opération de cartographie a réussi
linksarrayTableau des URLs découvertes sur le site web

firecrawl_extract

Extrayez des données structurées de pages web entières à l'aide d'instructions en langage naturel et de schémas JSON. Fonctionnalité agentique puissante pour l'extraction intelligente de données.

Entrée

ParamètreTypeObligatoireDescription
urlsjsonOuiTableau d'URLs à partir desquelles extraire des données (supporte le format glob)
promptstringNonInstructions en langage naturel pour le processus d'extraction
schemajsonNonSchéma JSON définissant la structure des données à extraire
enableWebSearchbooleanNonActiver la recherche web pour trouver des informations complémentaires (par défaut : false)
ignoreSitemapbooleanNonIgnorer les fichiers sitemap.xml pendant l'analyse (par défaut : false)
includeSubdomainsbooleanNonÉtendre l'analyse aux sous-domaines (par défaut : true)
showSourcesbooleanNonRenvoyer les sources de données dans la réponse (par défaut : false)
ignoreInvalidURLsbooleanNonIgnorer les URLs invalides dans le tableau (par défaut : true)
scrapeOptionsjsonNonOptions de configuration avancées pour l'extraction
apiKeystringOuiClé API Firecrawl

Sortie

ParamètreTypeDescription
successbooleanIndique si l'opération d'extraction a réussi
dataobjectDonnées structurées extraites selon le schéma ou l'invite

Remarques

  • Catégorie : tools
  • Type : firecrawl
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started