Firecrawl

抓取、搜索、爬取、映射并提取网页数据

Firecrawl 是一个强大的网页抓取和内容提取 API,可以无缝集成到 Sim 中,帮助开发者从任何网站提取干净、结构化的内容。通过这种集成,您可以轻松地将网页转换为 Markdown 和 HTML 等可用的数据格式,同时保留重要内容。

在 Sim 中使用 Firecrawl,您可以:

  • 提取干净的内容:移除广告、导航元素和其他干扰,只保留主要内容
  • 转换为结构化格式:将网页转换为 Markdown、HTML 或 JSON
  • 捕获元数据:提取 SEO 元数据、Open Graph 标签和其他页面信息
  • 处理依赖 JavaScript 的网站:从依赖 JavaScript 的现代 Web 应用中处理内容
  • 过滤内容:使用 CSS 选择器专注于页面的特定部分
  • 大规模处理:通过可靠的 API 满足高容量抓取需求
  • 搜索网络:执行智能网络搜索并获取结构化结果
  • 抓取整个网站:抓取网站的多个页面并汇总其内容

在 Sim 中,Firecrawl 集成使您的代理能够以编程方式访问和处理 Web 内容,作为其工作流程的一部分。支持的操作包括:

  • 抓取:从单个网页提取结构化内容(Markdown、HTML、元数据)。
  • 搜索:使用 Firecrawl 的智能搜索功能在网络上搜索信息。
  • 抓取:抓取网站的多个页面,返回每个页面的结构化内容和元数据。

这使您的代理能够从网站收集信息,提取结构化数据,并利用这些信息做出决策或生成洞察——无需处理复杂的原始 HTML 解析或浏览器自动化。只需使用您的 API 密钥配置 Firecrawl 模块,选择操作(抓取、搜索或抓取),并提供相关参数。您的代理即可立即开始以干净、结构化的格式处理 Web 内容。

使用说明

将 Firecrawl 集成到工作流程中。使用 AI 抓取页面、搜索网络、爬取整个网站、映射 URL 结构并提取结构化数据。

工具

firecrawl_scrape

从网页中提取结构化内容,并支持全面的元数据。将内容转换为 Markdown 或 HTML,同时捕获 SEO 元数据、Open Graph 标签和页面信息。

输入

参数类型必需描述
urlstring要抓取内容的 URL
scrapeOptionsjson内容抓取选项
apiKeystringFirecrawl API 密钥

输出

参数类型描述
markdownstringMarkdown 格式的页面内容
htmlstring页面原始 HTML 内容
metadataobject包括 SEO 和 Open Graph 信息的页面元数据

使用 Firecrawl 在网络上搜索信息

输入

参数类型必需描述
querystring要使用的搜索查询
apiKeystringFirecrawl API 密钥

输出

参数类型描述
dataarray搜索结果数据

firecrawl_crawl

抓取整个网站并从所有可访问页面提取结构化内容

输入

参数类型必需描述
urlstring要爬取的网站 URL
limitnumber要爬取的最大页面数 (默认值:100)
onlyMainContentboolean仅提取页面的主要内容
apiKeystringFirecrawl API 密钥

输出

参数类型描述
pagesarray包含抓取页面内容和元数据的数组

firecrawl_map

快速可靠地从任何网站获取完整的 URL 列表。适用于在不进行爬取的情况下发现网站上的所有页面。

输入

参数类型必需描述
urlstring要映射并发现链接的基础 URL
searchstring按与搜索词的相关性过滤结果 (例如:"blog")
sitemapstring控制站点地图的使用:"skip"、"include" (默认值) 或 "only"
includeSubdomainsboolean是否包含子域名的 URL (默认值:true)
ignoreQueryParametersboolean排除包含查询字符串的 URL (默认值:true)
limitnumber返回的最大链接数 (最大值:100,000,默认值:5,000)
timeoutnumber请求超时时间(毫秒)
locationjson用于代理的地理上下文 (国家、语言)
apiKeystringFirecrawl API 密钥

输出

参数类型描述
successboolean映射操作是否成功
linksarray从网站发现的 URL 数组

firecrawl_extract

使用自然语言提示和 JSON 架构从整个网页中提取结构化数据。强大的智能数据提取功能。

输入

参数类型必需描述
urlsjson要提取数据的 URL 数组 (支持 glob 格式)
promptstring提取过程的自然语言指导
schemajson定义要提取数据结构的 JSON 架构
enableWebSearchboolean启用网络搜索以查找补充信息 (默认值:false)
ignoreSitemapboolean扫描时忽略 sitemap.xml 文件 (默认值:false)
includeSubdomainsboolean扩展扫描到子域名 (默认值:true)
showSourcesboolean在响应中返回数据源 (默认值:false)
ignoreInvalidURLsboolean跳过数组中的无效 URL (默认值:true)
scrapeOptionsjson高级抓取配置选项
apiKeystringFirecrawl API 密钥

输出

参数类型描述
successboolean提取操作是否成功
dataobject根据模式或提示提取的结构化数据

firecrawl_agent

自主网页数据提取代理。根据自然语言提示进行搜索和信息收集,无需指定具体 URL。

输入

参数类型必需描述
promptstring要提取数据的自然语言描述(最多 10,000 个字符)
urlsjson可选的 URL 数组,用于聚焦代理任务
schemajson定义要提取数据结构的 JSON 架构
maxCreditsnumber此代理任务可消耗的最大积分数
strictConstrainToURLsboolean若为 true,代理仅访问 urls 数组中提供的 URL
apiKeystringFirecrawl API 密钥

输出

参数类型描述
successboolean代理操作是否成功
statusstring代理任务的当前状态(processing、completed、failed)
dataobject代理提取的数据
creditsUsednumber此代理任务消耗的积分数
expiresAtstring结果过期的时间戳(24 小时)
sourcesobject代理使用的来源 URL 数组

说明

  • 分类:tools
  • 类型:firecrawl

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started