Blocks

Evaluator

Evaluator 模块使用 AI 根据您定义的可自定义评估指标对内容质量进行评分和评估。非常适合质量控制、A/B 测试以及确保您的 AI 输出符合特定标准。

Evaluator 模块配置

概述

Evaluator 模块可以让您：

评分内容质量：使用 AI 根据自定义指标对内容进行数值评分

定义自定义指标：创建针对您的使用场景量身定制的评估标准

自动化质量控制：构建自动评估和筛选内容的工作流程

跟踪性能：通过客观评分监控改进和一致性

工作原理

Evaluator 模块通过 AI 驱动的评估处理内容：

接收内容 - 从工作流程中的前置模块接收输入内容
应用指标 - 根据您定义的自定义指标评估内容
生成评分 - AI 模型为每个指标分配数值评分
提供总结 - 返回包含评分和解释的详细评估

配置选项

评估指标

定义自定义指标以评估内容。每个指标包括：

名称：指标的简短标识符
描述：对指标测量内容的详细说明
范围：评分的数值范围（例如，1-5，0-10）

示例指标：

Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?

内容

需要评估的内容。这可以是：

直接在模块配置中提供
从另一个模块的输出连接（通常是 Agent 模块）
在工作流执行期间动态生成

模型选择

选择一个 AI 模型来执行评估：

OpenAI：GPT-4o、o1、o3、o4-mini、gpt-4.1 Anthropic：Claude 3.7 Sonnet Google：Gemini 2.5 Pro、Gemini 2.0 Flash 其他提供商：Groq、Cerebras、xAI、DeepSeek 本地模型：任何在 Ollama 上运行的模型

推荐：使用具有强大推理能力的模型，例如 GPT-4o 或 Claude 3.7 Sonnet，以获得更准确的评估。

API 密钥

您为所选 LLM 提供商设置的 API 密钥。此密钥将被安全存储并用于身份验证。

工作原理

Evaluator 模块接收提供的内容和您的自定义指标
它生成一个专门的提示，指示 LLM 评估内容
提示中包含关于如何对每个指标评分的明确指南
LLM 评估内容并返回每个指标的数值评分
Evaluator 模块将这些评分格式化为结构化输出，以便在您的工作流中使用

示例用例

内容质量评估

场景：在发布前评估博客文章的质量

Agent 模块生成博客文章内容
Evaluator 评估准确性、可读性和吸引力
Condition 模块检查评分是否达到最低阈值
高分 → 发布，低分 → 修改并重试

A/B 测试内容

场景：比较多个 AI 生成的回复

并行模块生成多个回复变体
评估者根据清晰度和相关性为每个变体评分
功能模块选择得分最高的回复
回复模块返回最佳结果

客户支持质量控制

场景：确保支持回复符合质量标准

支持代理生成对客户询问的回复
评估者对回复的有用性、同理心和准确性进行评分
评分记录用于培训和绩效监控
低评分会触发人工审核流程

输入和输出

内容：需要评估的文本或结构化数据
评估指标：带有评分范围的自定义标准
模型：用于评估分析的 AI 模型
API 密钥：选定 LLM 提供商的身份验证

evaluator.content：评估摘要
evaluator.model：用于评估的模型
evaluator.tokens：令牌使用统计
evaluator.cost：评估调用的成本摘要

指标评分：每个定义指标的数值评分
评估摘要：带有解释的详细评估
访问：在评估器之后的模块中可用

最佳实践

使用具体的指标描述：清楚定义每个指标的衡量内容，以获得更准确的评估
选择合适的范围：选择提供足够细分但不过于复杂的评分范围
与代理模块连接：使用评估器模块评估代理模块的输出并创建反馈循环
使用一致的指标：在比较分析中，保持类似评估的一致指标
结合多个指标：使用多个指标以获得全面的评估

On this page

On this page

内容质量评估

A/B 测试内容

客户支持质量控制

输入和输出