Sim

Evaluator

Evaluator 模块使用 AI 根据您定义的可自定义评估指标对内容质量进行评分和评估。非常适合质量控制、A/B 测试以及确保您的 AI 输出符合特定标准。

Evaluator 模块配置

概述

Evaluator 模块可以让您:

评分内容质量:使用 AI 根据自定义指标对内容进行数值评分

定义自定义指标:创建针对您的使用场景量身定制的评估标准

自动化质量控制:构建自动评估和筛选内容的工作流程

跟踪性能:通过客观评分监控改进和一致性

工作原理

Evaluator 模块通过 AI 驱动的评估处理内容:

  1. 接收内容 - 从工作流程中的前置模块接收输入内容
  2. 应用指标 - 根据您定义的自定义指标评估内容
  3. 生成评分 - AI 模型为每个指标分配数值评分
  4. 提供总结 - 返回包含评分和解释的详细评估

配置选项

评估指标

定义自定义指标以评估内容。每个指标包括:

  • 名称:指标的简短标识符
  • 描述:对指标测量内容的详细说明
  • 范围:评分的数值范围(例如,1-5,0-10)

示例指标:

Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?

内容

需要评估的内容。这可以是:

  • 直接在模块配置中提供
  • 从另一个模块的输出连接(通常是 Agent 模块)
  • 在工作流执行期间动态生成

模型选择

选择一个 AI 模型来执行评估:

OpenAI:GPT-4o、o1、o3、o4-mini、gpt-4.1 Anthropic:Claude 3.7 Sonnet Google:Gemini 2.5 Pro、Gemini 2.0 Flash 其他提供商:Groq、Cerebras、xAI、DeepSeek 本地模型:任何在 Ollama 上运行的模型

推荐:使用具有强大推理能力的模型,例如 GPT-4o 或 Claude 3.7 Sonnet,以获得更准确的评估。

API 密钥

您为所选 LLM 提供商设置的 API 密钥。此密钥将被安全存储并用于身份验证。

工作原理

  1. Evaluator 模块接收提供的内容和您的自定义指标
  2. 它生成一个专门的提示,指示 LLM 评估内容
  3. 提示中包含关于如何对每个指标评分的明确指南
  4. LLM 评估内容并返回每个指标的数值评分
  5. Evaluator 模块将这些评分格式化为结构化输出,以便在您的工作流中使用

示例用例

内容质量评估

场景:在发布前评估博客文章的质量

  1. Agent 模块生成博客文章内容
  2. Evaluator 评估准确性、可读性和吸引力
  3. Condition 模块检查评分是否达到最低阈值
  4. 高分 → 发布,低分 → 修改并重试

A/B 测试内容

场景:比较多个 AI 生成的回复

  1. 并行模块生成多个回复变体
  2. 评估者根据清晰度和相关性为每个变体评分
  3. 功能模块选择得分最高的回复
  4. 回复模块返回最佳结果

客户支持质量控制

场景:确保支持回复符合质量标准

  1. 支持代理生成对客户询问的回复
  2. 评估者对回复的有用性、同理心和准确性进行评分
  3. 评分记录用于培训和绩效监控
  4. 低评分会触发人工审核流程

输入和输出

  • 内容:需要评估的文本或结构化数据

  • 评估指标:带有评分范围的自定义标准

  • 模型:用于评估分析的 AI 模型

  • API 密钥:选定 LLM 提供商的身份验证

  • evaluator.content:评估摘要

  • evaluator.model:用于评估的模型

  • evaluator.tokens:令牌使用统计

  • evaluator.cost:评估调用的成本摘要

  • 指标评分:每个定义指标的数值评分

  • 评估摘要:带有解释的详细评估

  • 访问:在评估器之后的模块中可用

最佳实践

  • 使用具体的指标描述:清楚定义每个指标的衡量内容,以获得更准确的评估
  • 选择合适的范围:选择提供足够细分但不过于复杂的评分范围
  • 与代理模块连接:使用评估器模块评估代理模块的输出并创建反馈循环
  • 使用一致的指标:在比较分析中,保持类似评估的一致指标
  • 结合多个指标:使用多个指标以获得全面的评估
Evaluator