Jina

Jina AI 是一款强大的内容提取工具，可与 Sim 无缝集成，将网页内容转换为简洁、可读的文本。此集成使开发者能够轻松将网页内容处理功能融入其代理工作流中。

Jina AI Reader 专注于从网页中提取最相关的内容，去除杂乱、广告和格式问题，生成简洁、结构化的文本，优化语言模型和其他文本处理任务。

通过在 Sim 中集成 Jina AI，您可以：

此集成对于构建需要从网页收集和处理信息、进行研究或分析在线内容的代理特别有价值。

使用说明

将 Jina AI 集成到工作流程中。搜索网络并获取适合 LLM 的结果，或使用高级解析选项从特定 URL 中提取干净的内容。

使用 Jina AI Reader 提取和处理网页内容，生成简洁、适合 LLM 的文本。支持高级内容解析、链接收集和多种输出格式，并提供可配置的处理选项。

参数	类型	必需	描述
`url`	string	是	要读取并转换为 markdown 的 URL
`useReaderLMv2`	boolean	否	是否使用 ReaderLM-v2 以获得更高质量（3 倍 token 成本）
`gatherLinks`	boolean	否	是否在末尾收集所有链接
`jsonResponse`	boolean	否	是否以 JSON 格式返回响应
`apiKey`	string	是	您的 Jina AI API 密钥
`withImagesummary`	boolean	否	从页面收集所有带有元数据的图像
`retainImages`	string	否	控制图像包含："none" 删除所有，"all" 保留所有
`returnFormat`	string	否	输出格式：markdown、html、text、screenshot 或 pageshot
`withIframe`	boolean	否	在提取中包含 iframe 内容
`withShadowDom`	boolean	否	提取 Shadow DOM 内容
`noCache`	boolean	否	绕过缓存内容以实时检索
`withGeneratedAlt`	boolean	否	使用 VLM 为图像生成替代文本
`robotsTxt`	string	否	用于 robots.txt 检查的 Bot User-Agent
`dnt`	boolean	否	请勿跟踪 - 防止缓存/跟踪
`noGfm`	boolean	否	禁用 GitHub Flavored Markdown

参数	类型	描述
`content`	字符串	从 URL 提取的内容，已处理为简洁、适合 LLM 的文本

搜索网络并返回前 5 个包含适合 LLM 的内容的结果。每个结果都会通过 Jina Reader API 自动处理。支持地理过滤、站点限制和分页功能。

参数	类型	必需	描述
`q`	string	是	搜索查询字符串
`apiKey`	string	是	您的 Jina AI API 密钥
`num`	number	否	每页最大结果数（默认值：5）
`site`	string	否	将结果限制为特定域名。可以用逗号分隔多个站点（例如："jina.ai,github.com"）
`withFavicon`	boolean	否	在结果中包含网站图标
`withImagesummary`	boolean	否	从结果页面收集所有带有元数据的图像
`withLinksummary`	boolean	否	从结果页面收集所有链接
`retainImages`	string	否	控制图像包含："none" 删除所有，"all" 保留所有
`noCache`	boolean	否	绕过缓存内容以实时检索
`withGeneratedAlt`	boolean	否	使用 VLM 为图像生成替代文本
`respondWith`	string	否	设置为 "no-content" 以仅获取元数据而不包含页面内容
`returnFormat`	string	否	输出格式：markdown、html、text、screenshot 或 pageshot

参数	类型	描述
`results`	数组	搜索结果的数组，每个结果包含标题、描述、URL 和适合 LLM 的内容