Sim

Firecrawl

Explorer ou rechercher sur le web

Firecrawl est une API puissante de web scraping et d'extraction de contenu qui s'intÚgre parfaitement à Sim, permettant aux développeurs d'extraire du contenu structuré et épuré de n'importe quel site web. Cette intégration offre un moyen simple de transformer des pages web en formats de données utilisables comme Markdown et HTML tout en préservant le contenu essentiel.

Avec Firecrawl dans Sim, vous pouvez :

  • Extraire du contenu Ă©purĂ© : supprimer les publicitĂ©s, les Ă©lĂ©ments de navigation et autres distractions pour obtenir uniquement le contenu principal
  • Convertir en formats structurĂ©s : transformer des pages web en Markdown, HTML ou JSON
  • Capturer les mĂ©tadonnĂ©es : extraire les mĂ©tadonnĂ©es SEO, les balises Open Graph et autres informations de page
  • GĂ©rer les sites riches en JavaScript : traiter le contenu des applications web modernes qui reposent sur JavaScript
  • Filtrer le contenu : se concentrer sur des parties spĂ©cifiques d'une page en utilisant des sĂ©lecteurs CSS
  • Traiter Ă  grande Ă©chelle : gĂ©rer des besoins de scraping Ă  haut volume avec une API fiable
  • Rechercher sur le web : effectuer des recherches web intelligentes et rĂ©cupĂ©rer des rĂ©sultats structurĂ©s
  • Explorer des sites entiers : parcourir plusieurs pages d'un site web et agrĂ©ger leur contenu

Dans Sim, l'intégration de Firecrawl permet à vos agents d'accéder et de traiter le contenu web de maniÚre programmatique dans le cadre de leurs flux de travail. Les opérations prises en charge comprennent :

  • Scrape : extraire du contenu structurĂ© (Markdown, HTML, mĂ©tadonnĂ©es) d'une seule page web.
  • Search : rechercher des informations sur le web en utilisant les capacitĂ©s de recherche intelligente de Firecrawl.
  • Crawl : explorer plusieurs pages d'un site web, en retournant du contenu structurĂ© et des mĂ©tadonnĂ©es pour chaque page.

Cela permet Ă  vos agents de recueillir des informations Ă  partir de sites web, d'extraire des donnĂ©es structurĂ©es et d'utiliser ces informations pour prendre des dĂ©cisions ou gĂ©nĂ©rer des insights — le tout sans avoir Ă  naviguer dans les complexitĂ©s de l'analyse HTML brute ou de l'automatisation du navigateur. Configurez simplement le bloc Firecrawl avec votre clĂ© API, sĂ©lectionnez l'opĂ©ration (Scrape, Search ou Crawl) et fournissez les paramĂštres pertinents. Vos agents peuvent immĂ©diatement commencer Ă  travailler avec du contenu web dans un format propre et structurĂ©.

Instructions d'utilisation

Extrayez du contenu de n'importe quel site web grùce au web scraping avancé ou recherchez des informations sur le web. Récupérez des données propres et structurées à partir de pages web avec des options pour se concentrer sur le contenu principal, ou recherchez intelligemment des informations à travers le web.

Outils

firecrawl_scrape

Extrayez du contenu structuré à partir de pages web avec une prise en charge complÚte des métadonnées. Convertit le contenu en markdown ou HTML tout en capturant les métadonnées SEO, les balises Open Graph et les informations de la page.

Entrée

ParamĂštreTypeObligatoireDescription
urlstringOuiL'URL Ă  partir de laquelle extraire le contenu
scrapeOptionsjsonNonOptions pour l'extraction de contenu
apiKeystringOuiClé API Firecrawl

Sortie

ParamĂštreTypeDescription
markdownstringContenu de la page au format markdown
htmlstringContenu HTML brut de la page
metadataobjectMétadonnées de la page incluant les informations SEO et Open Graph

Recherchez des informations sur le web en utilisant Firecrawl

Entrée

ParamĂštreTypeObligatoireDescription
querystringOuiLa requĂȘte de recherche Ă  utiliser
apiKeystringOuiClé API Firecrawl

Sortie

ParamĂštreTypeDescription
dataarrayDonnées des résultats de recherche

firecrawl_crawl

Explorez des sites web entiers et extrayez du contenu structuré de toutes les pages accessibles

Entrée

ParamĂštreTypeObligatoireDescription
urlchaĂźneOuiL'URL du site web Ă  explorer
limitnombreNonNombre maximum de pages à explorer (par défaut : 100)
onlyMainContentbooléenNonExtraire uniquement le contenu principal des pages
apiKeychaßneOuiClé API Firecrawl

Sortie

ParamĂštreTypeDescription
pagestableauTableau des pages explorées avec leur contenu et métadonnées

Remarques

  • CatĂ©gorie : tools
  • Type : firecrawl
Firecrawl