Firecrawl
Explorer ou rechercher sur le web
Firecrawl est une API puissante de web scraping et d'extraction de contenu qui s'intÚgre parfaitement à Sim, permettant aux développeurs d'extraire du contenu structuré et épuré de n'importe quel site web. Cette intégration offre un moyen simple de transformer des pages web en formats de données utilisables comme Markdown et HTML tout en préservant le contenu essentiel.
Avec Firecrawl dans Sim, vous pouvez :
- Extraire du contenu épuré : supprimer les publicités, les éléments de navigation et autres distractions pour obtenir uniquement le contenu principal
- Convertir en formats structurés : transformer des pages web en Markdown, HTML ou JSON
- Capturer les métadonnées : extraire les métadonnées SEO, les balises Open Graph et autres informations de page
- Gérer les sites riches en JavaScript : traiter le contenu des applications web modernes qui reposent sur JavaScript
- Filtrer le contenu : se concentrer sur des parties spécifiques d'une page en utilisant des sélecteurs CSS
- Traiter à grande échelle : gérer des besoins de scraping à haut volume avec une API fiable
- Rechercher sur le web : effectuer des recherches web intelligentes et récupérer des résultats structurés
- Explorer des sites entiers : parcourir plusieurs pages d'un site web et agréger leur contenu
Dans Sim, l'intégration de Firecrawl permet à vos agents d'accéder et de traiter le contenu web de maniÚre programmatique dans le cadre de leurs flux de travail. Les opérations prises en charge comprennent :
- Scrape : extraire du contenu structuré (Markdown, HTML, métadonnées) d'une seule page web.
- Search : rechercher des informations sur le web en utilisant les capacités de recherche intelligente de Firecrawl.
- Crawl : explorer plusieurs pages d'un site web, en retournant du contenu structuré et des métadonnées pour chaque page.
Cela permet Ă vos agents de recueillir des informations Ă partir de sites web, d'extraire des donnĂ©es structurĂ©es et d'utiliser ces informations pour prendre des dĂ©cisions ou gĂ©nĂ©rer des insights â le tout sans avoir Ă naviguer dans les complexitĂ©s de l'analyse HTML brute ou de l'automatisation du navigateur. Configurez simplement le bloc Firecrawl avec votre clĂ© API, sĂ©lectionnez l'opĂ©ration (Scrape, Search ou Crawl) et fournissez les paramĂštres pertinents. Vos agents peuvent immĂ©diatement commencer Ă travailler avec du contenu web dans un format propre et structurĂ©.
Instructions d'utilisation
Extrayez du contenu de n'importe quel site web grùce au web scraping avancé ou recherchez des informations sur le web. Récupérez des données propres et structurées à partir de pages web avec des options pour se concentrer sur le contenu principal, ou recherchez intelligemment des informations à travers le web.
Outils
firecrawl_scrape
Extrayez du contenu structuré à partir de pages web avec une prise en charge complÚte des métadonnées. Convertit le contenu en markdown ou HTML tout en capturant les métadonnées SEO, les balises Open Graph et les informations de la page.
Entrée
ParamĂštre | Type | Obligatoire | Description |
---|---|---|---|
url | string | Oui | L'URL Ă partir de laquelle extraire le contenu |
scrapeOptions | json | Non | Options pour l'extraction de contenu |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
ParamĂštre | Type | Description |
---|---|---|
markdown | string | Contenu de la page au format markdown |
html | string | Contenu HTML brut de la page |
metadata | object | Métadonnées de la page incluant les informations SEO et Open Graph |
firecrawl_search
Recherchez des informations sur le web en utilisant Firecrawl
Entrée
ParamĂštre | Type | Obligatoire | Description |
---|---|---|---|
query | string | Oui | La requĂȘte de recherche Ă utiliser |
apiKey | string | Oui | Clé API Firecrawl |
Sortie
ParamĂštre | Type | Description |
---|---|---|
data | array | Données des résultats de recherche |
firecrawl_crawl
Explorez des sites web entiers et extrayez du contenu structuré de toutes les pages accessibles
Entrée
ParamĂštre | Type | Obligatoire | Description |
---|---|---|---|
url | chaĂźne | Oui | L'URL du site web Ă explorer |
limit | nombre | Non | Nombre maximum de pages à explorer (par défaut : 100) |
onlyMainContent | booléen | Non | Extraire uniquement le contenu principal des pages |
apiKey | chaßne | Oui | Clé API Firecrawl |
Sortie
ParamĂštre | Type | Description |
---|---|---|
pages | tableau | Tableau des pages explorées avec leur contenu et métadonnées |
Remarques
- Catégorie :
tools
- Type :
firecrawl