Sim

知识库

知识库允许您通过智能向量搜索和分块功能上传、处理并搜索您的文档。各种类型的文档会被自动处理、嵌入并变得可搜索。您的文档会被智能分块,您可以使用自然语言查询来查看、编辑和搜索它们。

上传与处理

只需上传您的文档即可开始。Sim 会在后台自动处理它们,提取文本、创建嵌入并将其分成可搜索的块。

系统为您处理整个处理流程:

  1. 文本提取:使用针对每种文件类型的专用解析器从文档中提取内容
  2. 智能分块:将文档分成有意义的块,并可配置大小和重叠
  3. 嵌入生成:创建向量嵌入以实现语义搜索功能
  4. 处理状态:在文档处理时跟踪进度

支持的文件类型

Sim 支持 PDF、Word (DOC/DOCX)、纯文本 (TXT)、Markdown (MD)、HTML、Excel (XLS/XLSX)、PowerPoint (PPT/PPTX) 和 CSV 文件。每个文件最大可达 100MB,文件小于 50MB 时性能最佳。您可以同时上传多个文档,PDF 文件还包括对扫描文档的 OCR 处理。

查看和编辑分块

文档处理完成后,您可以查看和编辑各个分块。这使您可以完全控制内容的组织和搜索方式。

显示已处理内容的文档分块视图

分块配置

  • 默认分块大小:1,024 个字符
  • 可配置范围:每块 100-4,000 个字符
  • 智能重叠:默认重叠 200 个字符以保留上下文
  • 分层拆分:遵循文档结构(章节、段落、句子)

编辑功能

  • 编辑分块内容:修改单个分块的文本内容
  • 调整分块边界:根据需要合并或拆分分块
  • 添加元数据:为分块添加额外的上下文信息
  • 批量操作:高效管理多个分块

高级 PDF 处理

对于 PDF 文档,Sim 提供增强的处理功能:

OCR 支持

当配置了 Azure 或 Mistral OCR 时:

  • 扫描文档处理:从基于图像的 PDF 中提取文本
  • 混合内容处理:处理同时包含文本和图像的 PDF
  • 高精度:先进的 AI 模型确保准确的文本提取

在工作流中使用知识块

一旦您的文档被处理,您可以通过知识块在 AI 工作流中使用它们。这使得检索增强生成(RAG)成为可能,让您的 AI 代理能够访问并推理文档内容,从而提供更准确、有上下文的响应。

在工作流中使用知识块

知识块功能

  • 语义搜索:使用自然语言查询查找相关内容
  • 上下文集成:自动将相关分块包含在代理提示中
  • 动态检索:在工作流执行期间实时搜索
  • 相关性评分:根据语义相似性对结果进行排名

集成选项

  • 系统提示:为您的 AI 代理提供上下文
  • 动态上下文:在对话中搜索并包含相关信息
  • 多文档搜索:在整个知识库中查询
  • 过滤搜索:结合标签实现精确内容检索

向量搜索技术

Sim 使用由 pgvector 提供支持的向量搜索来理解您的内容的含义和上下文:

语义理解

  • 上下文搜索:即使精确的关键词不匹配,也能找到相关内容
  • 基于概念的检索:理解想法之间的关系
  • 多语言支持:支持跨不同语言工作
  • 同义词识别:找到相关术语和概念

搜索功能

  • 自然语言查询:用简单的英语提问
  • 相似性搜索:找到概念上相似的内容
  • 混合搜索:结合向量和传统关键词搜索
  • 可配置结果:控制结果的数量和相关性阈值

文档管理

组织功能

  • 批量上传:通过异步 API 一次上传多个文件
  • 处理状态:实时更新文档处理状态
  • 搜索和过滤:在大型集合中快速找到文档
  • 元数据跟踪:自动捕获文件信息和处理详情

安全性和隐私

  • 安全存储:文档以企业级安全性存储
  • 访问控制:基于工作区的权限设置
  • 处理隔离:每个工作区的文档处理是独立的
  • 数据保留:配置文档保留策略

快速入门

  1. 导航到您的知识库:从工作区侧边栏访问
  2. 上传文档:拖放或选择文件进行上传
  3. 监控处理:查看文档的处理和分块进度
  4. 探索分块:查看和编辑处理后的内容
  5. 添加到工作流:使用知识块与您的 AI 代理集成

知识库将您的静态文档转化为智能的、可搜索的资源,使您的 AI 工作流能够利用这些资源提供更有信息量和上下文的响应。

知识库