Firecrawl
Durchsuche oder durchforste das Web
Firecrawl ist eine leistungsstarke Web-Scraping- und Content-Extraktions-API, die sich nahtlos in Sim integriert und Entwicklern ermöglicht, saubere, strukturierte Inhalte von jeder Website zu extrahieren. Diese Integration bietet eine einfache Möglichkeit, Webseiten in nutzbare Datenformate wie Markdown und HTML umzuwandeln und dabei die wesentlichen Inhalte zu bewahren.
Mit Firecrawl in Sim können Sie:
- Saubere Inhalte extrahieren: Entfernen Sie Werbung, Navigationselemente und andere Ablenkungen, um nur den Hauptinhalt zu erhalten
- In strukturierte Formate umwandeln: Transformieren Sie Webseiten in Markdown, HTML oder JSON
- Metadaten erfassen: Extrahieren Sie SEO-Metadaten, Open Graph-Tags und andere Seiteninformationen
- JavaScript-lastige Seiten verarbeiten: Verarbeiten Sie Inhalte von modernen Webanwendungen, die auf JavaScript basieren
- Inhalte filtern: Konzentrieren Sie sich auf bestimmte Teile einer Seite mit CSS-Selektoren
- Skalierbar verarbeiten: Bewältigen Sie umfangreiche Scraping-Anforderungen mit einer zuverlässigen API
- Im Web suchen: Führen Sie intelligente Websuchen durch und erhalten Sie strukturierte Ergebnisse
- Ganze Websites crawlen: Durchsuchen Sie mehrere Seiten einer Website und aggregieren Sie deren Inhalte
In Sim ermöglicht die Firecrawl-Integration Ihren Agenten, programmatisch auf Webinhalte zuzugreifen und diese als Teil ihrer Workflows zu verarbeiten. Unterstützte Operationen umfassen:
- Scrape: Extrahieren Sie strukturierte Inhalte (Markdown, HTML, Metadaten) von einer einzelnen Webseite.
- Search: Durchsuchen Sie das Web nach Informationen mit Firecrawls intelligenten Suchfunktionen.
- Crawl: Durchsuchen Sie mehrere Seiten einer Website und erhalten Sie strukturierte Inhalte und Metadaten für jede Seite.
Dies ermöglicht Ihren Agenten, Informationen von Websites zu sammeln, strukturierte Daten zu extrahieren und diese Informationen zu nutzen, um Entscheidungen zu treffen oder Erkenntnisse zu gewinnen – ohne sich mit den Komplexitäten des rohen HTML-Parsings oder der Browser-Automatisierung auseinandersetzen zu müssen. Konfigurieren Sie einfach den Firecrawl-Block mit Ihrem API-Schlüssel, wählen Sie die Operation (Scrape, Search oder Crawl) und geben Sie die relevanten Parameter an. Ihre Agenten können sofort mit Webinhalten in einem sauberen, strukturierten Format arbeiten.
Nutzungsanweisungen
Integrieren Sie Firecrawl in den Workflow. Kann Websites durchsuchen, scrapen oder crawlen. Benötigt API-Schlüssel.
Tools
firecrawl_scrape
Extrahieren Sie strukturierte Inhalte von Webseiten mit umfassender Metadaten-Unterstützung. Konvertiert Inhalte in Markdown oder HTML und erfasst dabei SEO-Metadaten, Open Graph-Tags und Seiteninformationen.
Eingabe
Parameter | Typ | Erforderlich | Beschreibung |
---|---|---|---|
url | string | Ja | Die URL, von der Inhalte extrahiert werden sollen |
scrapeOptions | json | Nein | Optionen für das Content-Scraping |
apiKey | string | Ja | Firecrawl API-Schlüssel |
Ausgabe
Parameter | Typ | Beschreibung |
---|---|---|
markdown | string | Seiteninhalt im Markdown-Format |
html | string | Roher HTML-Inhalt der Seite |
metadata | object | Seiten-Metadaten einschließlich SEO- und Open Graph-Informationen |
firecrawl_search
Suche nach Informationen im Web mit Firecrawl
Eingabe
Parameter | Typ | Erforderlich | Beschreibung |
---|---|---|---|
query | string | Ja | Die zu verwendende Suchanfrage |
apiKey | string | Ja | Firecrawl API-Schlüssel |
Ausgabe
Parameter | Typ | Beschreibung |
---|---|---|
data | array | Suchergebnisdaten |
firecrawl_crawl
Crawlen Sie ganze Websites und extrahieren Sie strukturierte Inhalte von allen zugänglichen Seiten
Eingabe
Parameter | Typ | Erforderlich | Beschreibung |
---|---|---|---|
url | string | Ja | Die Website-URL zum Crawlen |
limit | number | Nein | Maximale Anzahl der zu crawlenden Seiten (Standard: 100) |
onlyMainContent | boolean | Nein | Nur Hauptinhalt von Seiten extrahieren |
apiKey | string | Ja | Firecrawl API-Schlüssel |
Ausgabe
Parameter | Typ | Beschreibung |
---|---|---|
pages | array | Array von gecrawlten Seiten mit ihrem Inhalt und Metadaten |
Hinweise
- Kategorie:
tools
- Typ:
firecrawl