Evaluador

El bloque Evaluador utiliza IA para puntuar y evaluar la calidad del contenido según métricas personalizadas. Perfecto para control de calidad, pruebas A/B y para garantizar que los resultados de IA cumplan con estándares específicos.

Opciones de configuración

Métricas de evaluación

Define métricas personalizadas para evaluar el contenido. Cada métrica incluye:

  • Nombre: Un identificador corto para la métrica
  • Descripción: Una explicación detallada de lo que mide la métrica
  • Rango: El rango numérico para la puntuación (p. ej., 1-5, 0-10)

Ejemplos de métricas:

Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?

Contenido

El contenido que se evaluará. Puede ser:

  • Proporcionado directamente en la configuración del bloque
  • Conectado desde la salida de otro bloque (típicamente un bloque Agente)
  • Generado dinámicamente durante la ejecución del flujo de trabajo

Selección de modelo

Elige un modelo de IA para realizar la evaluación:

  • OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1
  • Anthropic: Claude 3.7 Sonnet
  • Google: Gemini 2.5 Pro, Gemini 2.0 Flash
  • Otros proveedores: Groq, Cerebras, xAI, DeepSeek
  • Modelos locales: modelos compatibles con Ollama o VLLM

Utiliza modelos con fuertes capacidades de razonamiento como GPT-4o o Claude 3.7 Sonnet para obtener mejores resultados.

Clave API

Tu clave API para el proveedor de LLM seleccionado. Se almacena de forma segura y se utiliza para la autenticación.

Ejemplos de casos de uso

Evaluación de calidad de contenido - Evalúa el contenido antes de su publicación

Agent (Generate) → Evaluator (Score) → Condition (Check threshold) → Publish or Revise

Pruebas A/B de contenido - Compara múltiples respuestas generadas por IA

Parallel (Variations) → Evaluator (Score Each) → Function (Select Best) → Response

Control de calidad de atención al cliente - Asegura que las respuestas cumplan con los estándares de calidad

Agent (Support Response) → Evaluator (Score) → Function (Log) → Condition (Review if Low)

Salidas

  • <evaluator.content>: Resumen de la evaluación con puntuaciones
  • <evaluator.model>: Modelo utilizado para la evaluación
  • <evaluator.tokens>: Estadísticas de uso de tokens
  • <evaluator.cost>: Costo estimado de la evaluación

Mejores prácticas

  • Usa descripciones específicas de métricas: Define claramente qué mide cada métrica para obtener evaluaciones más precisas
  • Elige rangos apropiados: Selecciona rangos de puntuación que proporcionen suficiente detalle sin ser excesivamente complejos
  • Conecta con bloques de Agente: Utiliza bloques Evaluadores para evaluar las salidas de bloques de Agente y crear bucles de retroalimentación
  • Usa métricas consistentes: Para análisis comparativos, mantén métricas consistentes en evaluaciones similares
  • Combina múltiples métricas: Utiliza varias métricas para obtener una evaluación integral

On this page