知识库
知识库允许您通过智能向量搜索和分块功能上传、处理并搜索您的文档。各种类型的文档会被自动处理、嵌入并变得可搜索。您的文档会被智能分块,您可以使用自然语言查询来查看、编辑和搜索它们。
上传与处理
只需上传您的文档即可开始。Sim 会在后台自动处理它们,提取文本、创建嵌入并将其分成可搜索的块。
系统为您处理整个处理流程:
- 文本提取:使用针对每种文件类型的专用解析器从文档中提取内容
- 智能分块:将文档分成有意义的块,并可配置大小和重叠
- 嵌入生成:创建向量嵌入以实现语义搜索功能
- 处理状态:在文档处理时跟踪进度
支持的文件类型
Sim 支持 PDF、Word (DOC/DOCX)、纯文本 (TXT)、Markdown (MD)、HTML、Excel (XLS/XLSX)、PowerPoint (PPT/PPTX) 和 CSV 文件。每个文件最大可达 100MB,文件小于 50MB 时性能最佳。您可以同时上传多个文档,PDF 文件还包括对扫描文档的 OCR 处理。
查看和编辑分块
文档处理完成后,您可以查看和编辑各个分块。这使您可以完全控制内容的组织和搜索方式。

分块配置
- 默认分块大小:1,024 个字符
- 可配置范围:每块 100-4,000 个字符
- 智能重叠:默认重叠 200 个字符以保留上下文
- 分层拆分:遵循文档结构(章节、段落、句子)
编辑功能
- 编辑分块内容:修改单个分块的文本内容
- 调整分块边界:根据需要合并或拆分分块
- 添加元数据:为分块添加额外的上下文信息
- 批量操作:高效管理多个分块
高级 PDF 处理
对于 PDF 文档,Sim 提供增强的处理功能:
OCR 支持
当配置了 Azure 或 Mistral OCR 时:
- 扫描文档处理:从基于图像的 PDF 中提取文本
- 混合内容处理:处理同时包含文本和图像的 PDF
- 高精度:先进的 AI 模型确保准确的文本提取
在工作流中使用知识块
一旦您的文档被处理,您可以通过知识块在 AI 工作流中使用它们。这使得检索增强生成(RAG)成为可能,让您的 AI 代理能够访问并推理文档内容,从而提供更准确、有上下文的响应。

知识块功能
- 语义搜索:使用自然语言查询查找相关内容
- 上下文集成:自动将相关分块包含在代理提示中
- 动态检索:在工作流执行期间实时搜索
- 相关性评分:根据语义相似性对结果进行排名
集成选项
- 系统提示:为您的 AI 代理提供上下文
- 动态上下文:在对话中搜索并包含相关信息
- 多文档搜索:在整个知识库中查询
- 过滤搜索:结合标签实现精确内容检索
向量搜索技术
Sim 使用由 pgvector 提供支持的向量搜索来理解您的内容的含义和上下文:
语义理解
- 上下文搜索:即使精确的关键词不匹配,也能找到相关内容
- 基于概念的检索:理解想法之间的关系
- 多语言支持:支持跨不同语言工作
- 同义词识别:找到相关术语和概念
搜索功能
- 自然语言查询:用简单的英语提问
- 相似性搜索:找到概念上相似的内容
- 混合搜索:结合向量和传统关键词搜索
- 可配置结果:控制结果的数量和相关性阈值
文档管理
组织功能
- 批量上传:通过异步 API 一次上传多个文件
- 处理状态:实时更新文档处理状态
- 搜索和过滤:在大型集合中快速找到文档
- 元数据跟踪:自动捕获文件信息和处理详情
安全性和隐私
- 安全存储:文档以企业级安全性存储
- 访问控制:基于工作区的权限设置
- 处理隔离:每个工作区的文档处理是独立的
- 数据保留:配置文档保留策略
快速入门
- 导航到您的知识库:从工作区侧边栏访问
- 上传文档:拖放或选择文件进行上传
- 监控处理:查看文档的处理和分块进度
- 探索分块:查看和编辑处理后的内容
- 添加到工作流:使用知识块与您的 AI 代理集成
知识库将您的静态文档转化为智能的、可搜索的资源,使您的 AI 工作流能够利用这些资源提供更有信息量和上下文的响应。