Firecrawl
抓取或搜索网页
Firecrawl 是一个强大的网页抓取和内容提取 API,可以无缝集成到 Sim 中,帮助开发者从任何网站提取干净、结构化的内容。通过这种集成,您可以轻松地将网页转换为 Markdown 和 HTML 等可用的数据格式,同时保留重要内容。
在 Sim 中使用 Firecrawl,您可以:
- 提取干净的内容:移除广告、导航元素和其他干扰,只保留主要内容
- 转换为结构化格式:将网页转换为 Markdown、HTML 或 JSON
- 捕获元数据:提取 SEO 元数据、Open Graph 标签和其他页面信息
- 处理依赖 JavaScript 的网站:从依赖 JavaScript 的现代 Web 应用中处理内容
- 过滤内容:使用 CSS 选择器专注于页面的特定部分
- 大规模处理:通过可靠的 API 满足高容量抓取需求
- 搜索网络:执行智能网络搜索并获取结构化结果
- 抓取整个网站:抓取网站的多个页面并汇总其内容
在 Sim 中,Firecrawl 集成使您的代理能够以编程方式访问和处理 Web 内容,作为其工作流程的一部分。支持的操作包括:
- 抓取:从单个网页提取结构化内容(Markdown、HTML、元数据)。
- 搜索:使用 Firecrawl 的智能搜索功能在网络上搜索信息。
- 抓取:抓取网站的多个页面,返回每个页面的结构化内容和元数据。
这使您的代理能够从网站收集信息,提取结构化数据,并利用这些信息做出决策或生成洞察——无需处理复杂的原始 HTML 解析或浏览器自动化。只需使用您的 API 密钥配置 Firecrawl 模块,选择操作(抓取、搜索或抓取),并提供相关参数。您的代理即可立即开始以干净、结构化的格式处理 Web 内容。
使用说明
通过高级网页抓取从任何网站提取内容,或在网络上搜索信息。从网页中获取干净、结构化的数据,可以选择专注于主要内容,或智能地在网络上搜索信息。
工具
firecrawl_scrape
从网页中提取结构化内容,并支持全面的元数据。将内容转换为 Markdown 或 HTML,同时捕获 SEO 元数据、Open Graph 标签和页面信息。
输入
参数 | 类型 | 必需 | 描述 |
---|---|---|---|
url | string | 是 | 要抓取内容的 URL |
scrapeOptions | json | 否 | 内容抓取的选项 |
apiKey | string | 是 | Firecrawl API 密钥 |
输出
参数 | 类型 | 描述 |
---|---|---|
markdown | string | Markdown 格式的页面内容 |
html | string | 页面原始 HTML 内容 |
metadata | object | 包括 SEO 和 Open Graph 信息的页面元数据 |
firecrawl_search
使用 Firecrawl 在网络上搜索信息
输入
参数 | 类型 | 必需 | 描述 |
---|---|---|---|
query | string | 是 | 要使用的搜索查询 |
apiKey | string | 是 | Firecrawl API 密钥 |
输出
参数 | 类型 | 描述 |
---|---|---|
data | array | 搜索结果数据 |
firecrawl_crawl
抓取整个网站并从所有可访问页面提取结构化内容
输入
参数 | 类型 | 必需 | 描述 |
---|---|---|---|
url | string | 是 | 要抓取的网站 URL |
limit | number | 否 | 要抓取的最大页面数 (默认值: 100) |
onlyMainContent | boolean | 否 | 仅提取页面的主要内容 |
apiKey | string | 是 | Firecrawl API 密钥 |
输出
参数 | 类型 | 描述 |
---|---|---|
pages | array | 包含抓取页面内容和元数据的数组 |
注意
- 分类:
tools
- 类型:
firecrawl