Firecrawl

Firecrawl ist eine leistungsstarke Web-Scraping- und Content-Extraktions-API, die sich nahtlos in Sim integriert und Entwicklern ermöglicht, saubere, strukturierte Inhalte von jeder Website zu extrahieren. Diese Integration bietet eine einfache Möglichkeit, Webseiten in nutzbare Datenformate wie Markdown und HTML umzuwandeln und dabei die wesentlichen Inhalte zu bewahren.

Mit Firecrawl in Sim können Sie:

Saubere Inhalte extrahieren: Entfernen Sie Werbung, Navigationselemente und andere Ablenkungen, um nur den Hauptinhalt zu erhalten
In strukturierte Formate umwandeln: Transformieren Sie Webseiten in Markdown, HTML oder JSON
Metadaten erfassen: Extrahieren Sie SEO-Metadaten, Open Graph-Tags und andere Seiteninformationen
JavaScript-lastige Seiten verarbeiten: Verarbeiten Sie Inhalte von modernen Webanwendungen, die auf JavaScript basieren
Inhalte filtern: Konzentrieren Sie sich auf bestimmte Teile einer Seite mit CSS-Selektoren
Skalierbar verarbeiten: Bewältigen Sie umfangreiche Scraping-Anforderungen mit einer zuverlässigen API
Im Web suchen: Führen Sie intelligente Websuchen durch und erhalten Sie strukturierte Ergebnisse
Ganze Websites crawlen: Durchsuchen Sie mehrere Seiten einer Website und aggregieren Sie deren Inhalte

In Sim ermöglicht die Firecrawl-Integration Ihren Agenten, programmatisch auf Webinhalte zuzugreifen und diese als Teil ihrer Workflows zu verarbeiten. Unterstützte Operationen umfassen:

Scrape: Extrahieren Sie strukturierte Inhalte (Markdown, HTML, Metadaten) von einer einzelnen Webseite.
Search: Durchsuchen Sie das Web nach Informationen mit Firecrawls intelligenten Suchfunktionen.
Crawl: Durchsuchen Sie mehrere Seiten einer Website und erhalten Sie strukturierte Inhalte und Metadaten für jede Seite.

Dies ermöglicht Ihren Agenten, Informationen von Websites zu sammeln, strukturierte Daten zu extrahieren und diese Informationen zu nutzen, um Entscheidungen zu treffen oder Erkenntnisse zu gewinnen – ohne sich mit den Komplexitäten des rohen HTML-Parsings oder der Browser-Automatisierung auseinandersetzen zu müssen. Konfigurieren Sie einfach den Firecrawl-Block mit Ihrem API-Schlüssel, wählen Sie die Operation (Scrape, Search oder Crawl) und geben Sie die relevanten Parameter an. Ihre Agenten können sofort mit Webinhalten in einem sauberen, strukturierten Format arbeiten.

Nutzungsanweisungen

Integrieren Sie Firecrawl in den Workflow. Scrapen Sie Seiten, durchsuchen Sie das Web, crawlen Sie ganze Websites, erfassen Sie URL-Strukturen und extrahieren Sie strukturierte Daten mit KI.

Tools

`firecrawl_scrape`

Extrahieren Sie strukturierte Inhalte von Webseiten mit umfassender Metadaten-Unterstützung. Konvertiert Inhalte in Markdown oder HTML und erfasst dabei SEO-Metadaten, Open Graph-Tags und Seiteninformationen.

Eingabe

Parameter	Typ	Erforderlich	Beschreibung
`url`	string	Ja	Die URL, von der Inhalte gescrapt werden sollen
`scrapeOptions`	json	Nein	Optionen für das Content-Scraping
`apiKey`	string	Ja	Firecrawl API-Schlüssel

Ausgabe

Parameter	Typ	Beschreibung
`markdown`	string	Seiteninhalt im Markdown-Format
`html`	string	Roher HTML-Inhalt der Seite
`metadata`	object	Seiten-Metadaten einschließlich SEO- und Open Graph-Informationen

`firecrawl_search`

Suche nach Informationen im Web mit Firecrawl

Eingabe

Parameter	Typ	Erforderlich	Beschreibung
`query`	string	Ja	Die zu verwendende Suchanfrage
`apiKey`	string	Ja	Firecrawl API-Schlüssel

Ausgabe

Parameter	Typ	Beschreibung
`data`	array	Suchergebnisdaten

`firecrawl_crawl`

Crawlen Sie ganze Websites und extrahieren Sie strukturierte Inhalte von allen zugänglichen Seiten

Eingabe

Parameter	Typ	Erforderlich	Beschreibung
`url`	string	Ja	Die zu crawlende Website-URL
`limit`	number	Nein	Maximale Anzahl der zu crawlenden Seiten (Standard: 100)
`onlyMainContent`	boolean	Nein	Nur Hauptinhalt von Seiten extrahieren
`apiKey`	string	Ja	Firecrawl API-Schlüssel

Ausgabe

Parameter	Typ	Beschreibung
`pages`	array	Array von gecrawlten Seiten mit ihrem Inhalt und Metadaten

`firecrawl_map`

Erhalten Sie schnell und zuverlässig eine vollständige Liste aller URLs einer Website. Nützlich, um alle Seiten einer Website zu entdecken, ohne sie zu crawlen.

Eingabe

Parameter	Typ	Erforderlich	Beschreibung
`url`	string	Ja	Die Basis-URL, von der Links erfasst und entdeckt werden sollen
`search`	string	Nein	Filtert Ergebnisse nach Relevanz zu einem Suchbegriff (z.B. "blog")
`sitemap`	string	Nein	Steuert die Sitemap-Nutzung: "skip", "include" (Standard) oder "only"
`includeSubdomains`	boolean	Nein	Ob URLs von Subdomains einbezogen werden sollen (Standard: true)
`ignoreQueryParameters`	boolean	Nein	URLs mit Query-Strings ausschließen (Standard: true)
`limit`	number	Nein	Maximale Anzahl der zurückzugebenden Links (max: 100.000, Standard: 5.000)
`timeout`	number	Nein	Timeout der Anfrage in Millisekunden
`location`	json	Nein	Geografischer Kontext für Proxying (Land, Sprachen)
`apiKey`	string	Ja	Firecrawl API-Schlüssel

Ausgabe

Parameter	Typ	Beschreibung
`success`	boolean	Ob der Mapping-Vorgang erfolgreich war
`links`	array	Array der entdeckten URLs von der Website

`firecrawl_extract`

Extrahieren Sie strukturierte Daten aus vollständigen Webseiten mithilfe von natürlichsprachlichen Anweisungen und JSON-Schema. Leistungsstarke Agenten-Funktion für intelligente Datenextraktion.

Eingabe

Parameter	Typ	Erforderlich	Beschreibung
`urls`	json	Ja	Array von URLs, aus denen Daten extrahiert werden sollen (unterstützt Glob-Format)
`prompt`	string	Nein	Natürlichsprachliche Anleitung für den Extraktionsprozess
`schema`	json	Nein	JSON-Schema, das die Struktur der zu extrahierenden Daten definiert
`enableWebSearch`	boolean	Nein	Websuche aktivieren, um ergänzende Informationen zu finden (Standard: false)
`ignoreSitemap`	boolean	Nein	Sitemap.xml-Dateien beim Scannen ignorieren (Standard: false)
`includeSubdomains`	boolean	Nein	Scanning auf Subdomains erweitern (Standard: true)
`showSources`	boolean	Nein	Datenquellen in der Antwort zurückgeben (Standard: false)
`ignoreInvalidURLs`	boolean	Nein	Ungültige URLs im Array überspringen (Standard: true)
`scrapeOptions`	json	Nein	Erweiterte Scraping-Konfigurationsoptionen
`apiKey`	string	Ja	Firecrawl API-Schlüssel

Ausgabe

Parameter	Typ	Beschreibung
`success`	boolean	Ob der Extraktionsvorgang erfolgreich war
`data`	object	Extrahierte strukturierte Daten gemäß dem Schema oder der Eingabeaufforderung

`firecrawl_agent`

Autonomer Web-Datenextraktions-Agent. Sucht und sammelt Informationen basierend auf natürlichsprachlichen Anweisungen, ohne dass spezifische URLs erforderlich sind.

Eingabe

Parameter	Typ	Erforderlich	Beschreibung
`prompt`	string	Ja	Natürlichsprachliche Beschreibung der zu extrahierenden Daten (max. 10.000 Zeichen)
`urls`	json	Nein	Optionales Array von URLs, auf die sich der Agent konzentrieren soll
`schema`	json	Nein	JSON-Schema, das die Struktur der zu extrahierenden Daten definiert
`maxCredits`	number	Nein	Maximale Credits, die für diese Agent-Aufgabe verwendet werden sollen
`strictConstrainToURLs`	boolean	Nein	Wenn true, besucht der Agent nur URLs, die im urls-Array angegeben sind
`apiKey`	string	Ja	Firecrawl API-Schlüssel

Ausgabe

Parameter	Typ	Beschreibung
`success`	boolean	Ob die Agent-Operation erfolgreich war
`status`	string	Aktueller Status des Agent-Jobs (processing, completed, failed)
`data`	object	Vom Agent extrahierte Daten
`creditsUsed`	number	Anzahl der von dieser Agent-Aufgabe verbrauchten Credits
`expiresAt`	string	Zeitstempel, wann die Ergebnisse ablaufen (24 Stunden)
`sources`	object	Array der vom Agent verwendeten Quell-URLs

Firecrawl

On this page