Sim

ナレッジベース

ナレッジベースでは、インテリジェントなベクトル検索とチャンキングを使用して、ドキュメントのアップロード、処理、検索が可能です。様々な種類のドキュメントが自動的に処理され、埋め込まれ、検索可能になります。ドキュメントはインテリジェントにチャンク化され、自然言語クエリを使用して閲覧、編集、検索することができます。

アップロードと処理

始めるには、単にドキュメントをアップロードするだけです。Simは自動的にバックグラウンドでドキュメントを処理し、テキストを抽出し、埋め込みを作成し、検索可能なチャンクに分割します。

システムは処理パイプライン全体を代行します:

  1. テキスト抽出:各ファイルタイプに特化したパーサーを使用してコンテンツが抽出されます
  2. インテリジェントなチャンキング:ドキュメントは設定可能なサイズとオーバーラップで意味のあるチャンクに分割されます
  3. 埋め込み生成:セマンティック検索機能のためのベクトル埋め込みが作成されます
  4. 処理状況:ドキュメントの処理進捗を追跡できます

サポートされているファイルタイプ

SimはPDF、Word(DOC/DOCX)、プレーンテキスト(TXT)、Markdown(MD)、HTML、Excel(XLS/XLSX)、PowerPoint(PPT/PPTX)、CSVファイルをサポートしています。ファイルは最大100MBまで対応し、50MB未満のファイルが最適なパフォーマンスを発揮します。複数のドキュメントを同時にアップロードでき、PDFファイルにはスキャンされたドキュメント用のOCR処理が含まれています。

チャンクの閲覧と編集

ドキュメントが処理されると、個々のチャンクを閲覧および編集できます。これにより、コンテンツの整理方法と検索方法を完全に制御できます。

処理されたコンテンツを表示するドキュメントチャンクビュー

チャンク設定

  • デフォルトチャンクサイズ: 1,024文字
  • 設定可能範囲: チャンクあたり100〜4,000文字
  • スマートオーバーラップ: コンテキスト保持のためデフォルトで200文字
  • 階層的分割: 文書構造(セクション、段落、文)を尊重

編集機能

  • チャンク内容の編集: 個々のチャンクのテキスト内容を修正
  • チャンク境界の調整: 必要に応じてチャンクの結合や分割
  • メタデータの追加: 追加のコンテキストでチャンクを強化
  • 一括操作: 複数のチャンクを効率的に管理

高度なPDF処理

PDFドキュメントについて、Simは強化された処理機能を提供します:

OCRサポート

AzureまたはMistral OCRで構成されている場合:

  • スキャンされたドキュメント処理: 画像ベースのPDFからテキストを抽出
  • 混合コンテンツ処理: テキストと画像の両方を含むPDFを処理
  • 高精度: 高度なAIモデルが正確なテキスト抽出を保証

ワークフローでのナレッジブロックの使用

ドキュメントが処理されると、ナレッジブロックを通じてAIワークフローで使用できるようになります。これにより検索拡張生成(RAG)が可能になり、AIエージェントがドキュメントの内容にアクセスして推論し、より正確でコンテキストに沿った回答を提供できます。

ワークフローでのナレッジブロックの使用

ナレッジブロックの機能

  • 意味検索: 自然言語クエリを使用して関連コンテンツを検索
  • コンテキスト統合: エージェントプロンプトに関連チャンクを自動的に含める
  • 動的検索: ワークフロー実行中にリアルタイムで検索が行われる
  • 関連性スコアリング: 意味的類似性によって結果がランク付け

統合オプション

  • システムプロンプト: AIエージェントにコンテキストを提供
  • 動的コンテキスト: 会話中に関連情報を検索して含める
  • 複数ドキュメント検索: ナレッジベース全体を横断して検索
  • フィルター検索: タグと組み合わせて正確なコンテンツ検索

ベクトル検索技術

Simはpgvectorを活用したベクトル検索を使用して、コンテンツの意味とコンテキストを理解します:

意味的理解

  • コンテキスト検索:正確なキーワードが一致しなくても関連コンテンツを見つける
  • 概念ベースの検索:アイデア間の関係性を理解
  • 多言語サポート:異なる言語間で機能
  • 同義語認識:関連する用語や概念を見つける

検索機能

  • 自然言語クエリ:平易な日本語で質問できる
  • 類似性検索:概念的に類似したコンテンツを見つける
  • ハイブリッド検索:ベクトル検索と従来のキーワード検索を組み合わせる
  • 結果の設定:結果の数と関連性の閾値を制御

ドキュメント管理

整理機能

  • 一括アップロード:非同期APIを通じて複数のファイルを一度にアップロード
  • 処理状況:ドキュメント処理のリアルタイム更新
  • 検索とフィルタリング:大規模なコレクションからドキュメントを素早く見つける
  • メタデータ追跡:ファイル情報と処理詳細の自動キャプチャ

セキュリティとプライバシー

  • 安全なストレージ:エンタープライズグレードのセキュリティでドキュメントを保存
  • アクセス制御:ワークスペースベースの権限
  • 処理の分離:各ワークスペースは分離されたドキュメント処理を持つ
  • データ保持:ドキュメント保持ポリシーの設定

はじめに

  1. ナレッジベースに移動:ワークスペースのサイドバーからアクセス
  2. ドキュメントのアップロード:ドラッグ&ドロップまたはファイルを選択してアップロード
  3. 処理の監視:ドキュメントが処理されチャンク化される過程を確認
  4. チャンクの探索:処理されたコンテンツを表示・編集
  5. ワークフローへの追加:ナレッジブロックを使用してAIエージェントと統合

ナレッジベースは静的なドキュメントを、AIワークフローがより情報に基づいた文脈的な応答のために活用できる、インテリジェントで検索可能なリソースに変換します。

ナレッジベース