Sim

Evaluador

El bloque Evaluador utiliza IA para puntuar y evaluar la calidad del contenido mediante métricas de evaluación personalizables que tú defines. Perfecto para control de calidad, pruebas A/B y para garantizar que tus resultados de IA cumplan con estándares específicos.

Configuración del bloque Evaluador

Descripción general

El bloque Evaluador te permite:

Puntuar la calidad del contenido: Usa IA para evaluar contenido según métricas personalizadas con puntuaciones numéricas

Definir métricas personalizadas: Crea criterios de evaluación específicos adaptados a tu caso de uso

Automatizar el control de calidad: Construye flujos de trabajo que evalúan y filtran contenido automáticamente

Seguir el rendimiento: Monitoriza mejoras y consistencia a lo largo del tiempo con puntuaciones objetivas

Cómo funciona

El bloque Evaluador procesa contenido mediante evaluación impulsada por IA:

  1. Recibe contenido - Toma el contenido de entrada de bloques previos en tu flujo de trabajo
  2. Aplica métricas - Evalúa el contenido según tus métricas personalizadas definidas
  3. Genera puntuaciones - El modelo de IA asigna puntuaciones numéricas para cada métrica
  4. Proporciona resumen - Devuelve una evaluación detallada con puntuaciones y explicaciones

Opciones de configuración

Métricas de evaluación

Define métricas personalizadas para evaluar el contenido. Cada métrica incluye:

  • Nombre: Un identificador corto para la métrica
  • Descripción: Una explicación detallada de lo que mide la métrica
  • Rango: El rango numérico para la puntuación (p. ej., 1-5, 0-10)

Ejemplos de métricas:

Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?

Contenido

El contenido a evaluar. Esto puede ser:

  • Proporcionado directamente en la configuración del bloque
  • Conectado desde la salida de otro bloque (típicamente un bloque de Agente)
  • Generado dinámicamente durante la ejecución del flujo de trabajo

Selección de modelo

Elige un modelo de IA para realizar la evaluación:

OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1 Anthropic: Claude 3.7 Sonnet Google: Gemini 2.5 Pro, Gemini 2.0 Flash Otros proveedores: Groq, Cerebras, xAI, DeepSeek Modelos locales: Cualquier modelo ejecutándose en Ollama

Recomendación: Utiliza modelos con fuertes capacidades de razonamiento como GPT-4o o Claude 3.7 Sonnet para evaluaciones más precisas.

Clave API

Tu clave API para el proveedor de LLM seleccionado. Esta se almacena de forma segura y se utiliza para la autenticación.

Cómo funciona

  1. El bloque Evaluador toma el contenido proporcionado y tus métricas personalizadas
  2. Genera un prompt especializado que instruye al LLM para evaluar el contenido
  3. El prompt incluye directrices claras sobre cómo puntuar cada métrica
  4. El LLM evalúa el contenido y devuelve puntuaciones numéricas para cada métrica
  5. El bloque Evaluador formatea estas puntuaciones como salida estructurada para su uso en tu flujo de trabajo

Ejemplos de casos de uso

Evaluación de calidad de contenido

Escenario: Evaluar la calidad de un artículo de blog antes de su publicación

  1. El bloque de Agente genera el contenido del artículo
  2. El Evaluador evalúa la precisión, legibilidad y engagement
  3. El bloque de Condición verifica si las puntuaciones cumplen con los umbrales mínimos
  4. Puntuaciones altas → Publicar, Puntuaciones bajas → Revisar y reintentar

Pruebas A/B de contenido

Escenario: Comparar múltiples respuestas generadas por IA

  1. El bloque paralelo genera múltiples variaciones de respuesta
  2. El evaluador puntúa cada variación según claridad y relevancia
  3. El bloque de función selecciona la respuesta con mayor puntuación
  4. El bloque de respuesta devuelve el mejor resultado

Control de calidad de atención al cliente

Escenario: Asegurar que las respuestas de soporte cumplan con los estándares de calidad

  1. El agente de soporte genera una respuesta a la consulta del cliente
  2. El evaluador puntúa la utilidad, empatía y precisión
  3. Las puntuaciones se registran para entrenamiento y monitoreo de rendimiento
  4. Las puntuaciones bajas activan un proceso de revisión humana

Entradas y salidas

  • Contenido: El texto o datos estructurados a evaluar

  • Métricas de evaluación: Criterios personalizados con rangos de puntuación

  • Modelo: Modelo de IA para análisis de evaluación

  • Clave API: Autenticación para el proveedor de LLM seleccionado

  • evaluator.content: Resumen de la evaluación

  • evaluator.model: Modelo utilizado para la evaluación

  • evaluator.tokens: Estadísticas de uso de tokens

  • evaluator.cost: Resumen de costos para la llamada de evaluación

  • Puntuaciones de métricas: Puntuaciones numéricas para cada métrica definida

  • Resumen de evaluación: Evaluación detallada con explicaciones

  • Acceso: Disponible en bloques después del evaluador

Mejores prácticas

  • Usar descripciones específicas de métricas: Define claramente qué mide cada métrica para obtener evaluaciones más precisas
  • Elegir rangos apropiados: Selecciona rangos de puntuación que proporcionen suficiente detalle sin ser excesivamente complejos
  • Conectar con bloques de agente: Utiliza bloques evaluadores para evaluar las salidas de bloques de agente y crear bucles de retroalimentación
  • Usar métricas consistentes: Para análisis comparativos, mantén métricas consistentes en evaluaciones similares
  • Combinar múltiples métricas: Usa varias métricas para obtener una evaluación integral
Evaluador