Sim

Firecrawl

Scrapen, suchen, crawlen, mappen und extrahieren von Webdaten

Firecrawl ist eine leistungsstarke Web-Scraping- und Content-Extraktions-API, die sich nahtlos in Sim integriert und Entwicklern ermöglicht, saubere, strukturierte Inhalte von jeder Website zu extrahieren. Diese Integration bietet eine einfache Möglichkeit, Webseiten in nutzbare Datenformate wie Markdown und HTML umzuwandeln und dabei die wesentlichen Inhalte zu bewahren.

Mit Firecrawl in Sim können Sie:

  • Saubere Inhalte extrahieren: Entfernen Sie Werbung, Navigationselemente und andere Ablenkungen, um nur den Hauptinhalt zu erhalten
  • In strukturierte Formate umwandeln: Transformieren Sie Webseiten in Markdown, HTML oder JSON
  • Metadaten erfassen: Extrahieren Sie SEO-Metadaten, Open Graph-Tags und andere Seiteninformationen
  • JavaScript-lastige Seiten verarbeiten: Verarbeiten Sie Inhalte von modernen Webanwendungen, die auf JavaScript basieren
  • Inhalte filtern: Konzentrieren Sie sich auf bestimmte Teile einer Seite mit CSS-Selektoren
  • Skalierbar verarbeiten: Bewältigen Sie umfangreiche Scraping-Anforderungen mit einer zuverlässigen API
  • Im Web suchen: Führen Sie intelligente Websuchen durch und erhalten Sie strukturierte Ergebnisse
  • Ganze Websites crawlen: Durchsuchen Sie mehrere Seiten einer Website und aggregieren Sie deren Inhalte

In Sim ermöglicht die Firecrawl-Integration Ihren Agenten, programmatisch auf Webinhalte zuzugreifen und diese als Teil ihrer Workflows zu verarbeiten. Unterstützte Operationen umfassen:

  • Scrape: Extrahieren Sie strukturierte Inhalte (Markdown, HTML, Metadaten) von einer einzelnen Webseite.
  • Search: Durchsuchen Sie das Web nach Informationen mit Firecrawls intelligenten Suchfunktionen.
  • Crawl: Durchsuchen Sie mehrere Seiten einer Website und erhalten Sie strukturierte Inhalte und Metadaten für jede Seite.

Dies ermöglicht Ihren Agenten, Informationen von Websites zu sammeln, strukturierte Daten zu extrahieren und diese Informationen zu nutzen, um Entscheidungen zu treffen oder Erkenntnisse zu gewinnen – ohne sich mit den Komplexitäten des rohen HTML-Parsings oder der Browser-Automatisierung auseinandersetzen zu müssen. Konfigurieren Sie einfach den Firecrawl-Block mit Ihrem API-Schlüssel, wählen Sie die Operation (Scrape, Search oder Crawl) und geben Sie die relevanten Parameter an. Ihre Agenten können sofort mit Webinhalten in einem sauberen, strukturierten Format arbeiten.

Nutzungsanweisungen

Integrieren Sie Firecrawl in den Workflow. Scrapen Sie Seiten, durchsuchen Sie das Web, crawlen Sie ganze Websites, erfassen Sie URL-Strukturen und extrahieren Sie strukturierte Daten mit KI.

Tools

firecrawl_scrape

Extrahieren Sie strukturierte Inhalte von Webseiten mit umfassender Metadaten-Unterstützung. Konvertiert Inhalte in Markdown oder HTML und erfasst dabei SEO-Metadaten, Open Graph-Tags und Seiteninformationen.

Eingabe

ParameterTypErforderlichBeschreibung
urlstringJaDie URL, von der Inhalte gescrapt werden sollen
scrapeOptionsjsonNeinOptionen für das Content-Scraping
apiKeystringJaFirecrawl API-Schlüssel

Ausgabe

ParameterTypBeschreibung
markdownstringSeiteninhalt im Markdown-Format
htmlstringRoher HTML-Inhalt der Seite
metadataobjectSeiten-Metadaten einschließlich SEO- und Open Graph-Informationen

Suche nach Informationen im Web mit Firecrawl

Eingabe

ParameterTypErforderlichBeschreibung
querystringJaDie zu verwendende Suchanfrage
apiKeystringJaFirecrawl API-Schlüssel

Ausgabe

ParameterTypBeschreibung
dataarraySuchergebnisdaten

firecrawl_crawl

Crawlen Sie ganze Websites und extrahieren Sie strukturierte Inhalte von allen zugänglichen Seiten

Eingabe

ParameterTypErforderlichBeschreibung
urlstringJaDie zu crawlende Website-URL
limitnumberNeinMaximale Anzahl der zu crawlenden Seiten (Standard: 100)
onlyMainContentbooleanNeinNur Hauptinhalt von Seiten extrahieren
apiKeystringJaFirecrawl API-Schlüssel

Ausgabe

ParameterTypBeschreibung
pagesarrayArray von gecrawlten Seiten mit ihrem Inhalt und Metadaten

firecrawl_map

Erhalten Sie schnell und zuverlässig eine vollständige Liste aller URLs einer Website. Nützlich, um alle Seiten einer Website zu entdecken, ohne sie zu crawlen.

Eingabe

ParameterTypErforderlichBeschreibung
urlstringJaDie Basis-URL, von der Links erfasst und entdeckt werden sollen
searchstringNeinFiltert Ergebnisse nach Relevanz zu einem Suchbegriff (z.B. "blog")
sitemapstringNeinSteuert die Sitemap-Nutzung: "skip", "include" (Standard) oder "only"
includeSubdomainsbooleanNeinOb URLs von Subdomains einbezogen werden sollen (Standard: true)
ignoreQueryParametersbooleanNeinURLs mit Query-Strings ausschließen (Standard: true)
limitnumberNeinMaximale Anzahl der zurückzugebenden Links (max: 100.000, Standard: 5.000)
timeoutnumberNeinTimeout der Anfrage in Millisekunden
locationjsonNeinGeografischer Kontext für Proxying (Land, Sprachen)
apiKeystringJaFirecrawl API-Schlüssel

Ausgabe

ParameterTypBeschreibung
successbooleanOb der Mapping-Vorgang erfolgreich war
linksarrayArray der entdeckten URLs von der Website

firecrawl_extract

Extrahieren Sie strukturierte Daten aus vollständigen Webseiten mithilfe von natürlichsprachlichen Anweisungen und JSON-Schema. Leistungsstarke Agenten-Funktion für intelligente Datenextraktion.

Eingabe

ParameterTypErforderlichBeschreibung
urlsjsonJaArray von URLs, aus denen Daten extrahiert werden sollen (unterstützt Glob-Format)
promptstringNeinNatürlichsprachliche Anleitung für den Extraktionsprozess
schemajsonNeinJSON-Schema, das die Struktur der zu extrahierenden Daten definiert
enableWebSearchbooleanNeinWebsuche aktivieren, um ergänzende Informationen zu finden (Standard: false)
ignoreSitemapbooleanNeinSitemap.xml-Dateien beim Scannen ignorieren (Standard: false)
includeSubdomainsbooleanNeinScanning auf Subdomains erweitern (Standard: true)
showSourcesbooleanNeinDatenquellen in der Antwort zurückgeben (Standard: false)
ignoreInvalidURLsbooleanNeinUngültige URLs im Array überspringen (Standard: true)
scrapeOptionsjsonNeinErweiterte Scraping-Konfigurationsoptionen
apiKeystringJaFirecrawl API-Schlüssel

Ausgabe

ParameterTypBeschreibung
successbooleanOb der Extraktionsvorgang erfolgreich war
dataobjectExtrahierte strukturierte Daten gemäß dem Schema oder Prompt
sourcesarrayDatenquellen (nur wenn showSources aktiviert ist)

Hinweise

  • Kategorie: tools
  • Typ: firecrawl
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started