Sim

Firecrawl

抓取或搜索网页

Firecrawl 是一个强大的网页抓取和内容提取 API,可以无缝集成到 Sim 中,帮助开发者从任何网站提取干净、结构化的内容。通过这种集成,您可以轻松地将网页转换为 Markdown 和 HTML 等可用的数据格式,同时保留重要内容。

在 Sim 中使用 Firecrawl,您可以:

  • 提取干净的内容:移除广告、导航元素和其他干扰,只保留主要内容
  • 转换为结构化格式:将网页转换为 Markdown、HTML 或 JSON
  • 捕获元数据:提取 SEO 元数据、Open Graph 标签和其他页面信息
  • 处理依赖 JavaScript 的网站:从依赖 JavaScript 的现代 Web 应用中处理内容
  • 过滤内容:使用 CSS 选择器专注于页面的特定部分
  • 大规模处理:通过可靠的 API 满足高容量抓取需求
  • 搜索网络:执行智能网络搜索并获取结构化结果
  • 抓取整个网站:抓取网站的多个页面并汇总其内容

在 Sim 中,Firecrawl 集成使您的代理能够以编程方式访问和处理 Web 内容,作为其工作流程的一部分。支持的操作包括:

  • 抓取:从单个网页提取结构化内容(Markdown、HTML、元数据)。
  • 搜索:使用 Firecrawl 的智能搜索功能在网络上搜索信息。
  • 抓取:抓取网站的多个页面,返回每个页面的结构化内容和元数据。

这使您的代理能够从网站收集信息,提取结构化数据,并利用这些信息做出决策或生成洞察——无需处理复杂的原始 HTML 解析或浏览器自动化。只需使用您的 API 密钥配置 Firecrawl 模块,选择操作(抓取、搜索或抓取),并提供相关参数。您的代理即可立即开始以干净、结构化的格式处理 Web 内容。

使用说明

通过高级网页抓取从任何网站提取内容,或在网络上搜索信息。从网页中获取干净、结构化的数据,可以选择专注于主要内容,或智能地在网络上搜索信息。

工具

firecrawl_scrape

从网页中提取结构化内容,并支持全面的元数据。将内容转换为 Markdown 或 HTML,同时捕获 SEO 元数据、Open Graph 标签和页面信息。

输入

参数类型必需描述
urlstring要抓取内容的 URL
scrapeOptionsjson内容抓取的选项
apiKeystringFirecrawl API 密钥

输出

参数类型描述
markdownstringMarkdown 格式的页面内容
htmlstring页面原始 HTML 内容
metadataobject包括 SEO 和 Open Graph 信息的页面元数据

使用 Firecrawl 在网络上搜索信息

输入

参数类型必需描述
querystring要使用的搜索查询
apiKeystringFirecrawl API 密钥

输出

参数类型描述
dataarray搜索结果数据

firecrawl_crawl

抓取整个网站并从所有可访问页面提取结构化内容

输入

参数类型必需描述
urlstring要抓取的网站 URL
limitnumber要抓取的最大页面数 (默认值: 100)
onlyMainContentboolean仅提取页面的主要内容
apiKeystringFirecrawl API 密钥

输出

参数类型描述
pagesarray包含抓取页面内容和元数据的数组

注意

  • 分类: tools
  • 类型: firecrawl
Firecrawl