Evaluador
El bloque Evaluador utiliza IA para puntuar y evaluar la calidad del contenido mediante métricas de evaluación personalizables que tú defines. Perfecto para control de calidad, pruebas A/B y para garantizar que tus resultados de IA cumplan con estándares especÃficos.

Descripción general
El bloque Evaluador te permite:
Puntuar la calidad del contenido: Usa IA para evaluar contenido según métricas personalizadas con puntuaciones numéricas
Definir métricas personalizadas: Crea criterios de evaluación especÃficos adaptados a tu caso de uso
Automatizar el control de calidad: Construye flujos de trabajo que evalúan y filtran contenido automáticamente
Seguir el rendimiento: Monitoriza mejoras y consistencia a lo largo del tiempo con puntuaciones objetivas
Cómo funciona
El bloque Evaluador procesa contenido mediante evaluación impulsada por IA:
- Recibe contenido - Toma el contenido de entrada de bloques previos en tu flujo de trabajo
- Aplica métricas - Evalúa el contenido según tus métricas personalizadas definidas
- Genera puntuaciones - El modelo de IA asigna puntuaciones numéricas para cada métrica
- Proporciona resumen - Devuelve una evaluación detallada con puntuaciones y explicaciones
Opciones de configuración
Métricas de evaluación
Define métricas personalizadas para evaluar el contenido. Cada métrica incluye:
- Nombre: Un identificador corto para la métrica
- Descripción: Una explicación detallada de lo que mide la métrica
- Rango: El rango numérico para la puntuación (p. ej., 1-5, 0-10)
Ejemplos de métricas:
Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?
Contenido
El contenido a evaluar. Esto puede ser:
- Proporcionado directamente en la configuración del bloque
- Conectado desde la salida de otro bloque (tÃpicamente un bloque de Agente)
- Generado dinámicamente durante la ejecución del flujo de trabajo
Selección de modelo
Elige un modelo de IA para realizar la evaluación:
OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1 Anthropic: Claude 3.7 Sonnet Google: Gemini 2.5 Pro, Gemini 2.0 Flash Otros proveedores: Groq, Cerebras, xAI, DeepSeek Modelos locales: Cualquier modelo ejecutándose en Ollama
Recomendación: Utiliza modelos con fuertes capacidades de razonamiento como GPT-4o o Claude 3.7 Sonnet para evaluaciones más precisas.
Clave API
Tu clave API para el proveedor de LLM seleccionado. Esta se almacena de forma segura y se utiliza para la autenticación.
Cómo funciona
- El bloque Evaluador toma el contenido proporcionado y tus métricas personalizadas
- Genera un prompt especializado que instruye al LLM para evaluar el contenido
- El prompt incluye directrices claras sobre cómo puntuar cada métrica
- El LLM evalúa el contenido y devuelve puntuaciones numéricas para cada métrica
- El bloque Evaluador formatea estas puntuaciones como salida estructurada para su uso en tu flujo de trabajo
Ejemplos de casos de uso
Evaluación de calidad de contenido
Escenario: Evaluar la calidad de un artÃculo de blog antes de su publicación
- El bloque de Agente genera el contenido del artÃculo
- El Evaluador evalúa la precisión, legibilidad y engagement
- El bloque de Condición verifica si las puntuaciones cumplen con los umbrales mÃnimos
- Puntuaciones altas → Publicar, Puntuaciones bajas → Revisar y reintentar
Pruebas A/B de contenido
Escenario: Comparar múltiples respuestas generadas por IA
- El bloque paralelo genera múltiples variaciones de respuesta
- El evaluador puntúa cada variación según claridad y relevancia
- El bloque de función selecciona la respuesta con mayor puntuación
- El bloque de respuesta devuelve el mejor resultado
Control de calidad de atención al cliente
Escenario: Asegurar que las respuestas de soporte cumplan con los estándares de calidad
- El agente de soporte genera una respuesta a la consulta del cliente
- El evaluador puntúa la utilidad, empatÃa y precisión
- Las puntuaciones se registran para entrenamiento y monitoreo de rendimiento
- Las puntuaciones bajas activan un proceso de revisión humana
Entradas y salidas
Contenido: El texto o datos estructurados a evaluar
Métricas de evaluación: Criterios personalizados con rangos de puntuación
Modelo: Modelo de IA para análisis de evaluación
Clave API: Autenticación para el proveedor de LLM seleccionado
evaluator.content: Resumen de la evaluación
evaluator.model: Modelo utilizado para la evaluación
evaluator.tokens: EstadÃsticas de uso de tokens
evaluator.cost: Resumen de costos para la llamada de evaluación
Puntuaciones de métricas: Puntuaciones numéricas para cada métrica definida
Resumen de evaluación: Evaluación detallada con explicaciones
Acceso: Disponible en bloques después del evaluador
Mejores prácticas
- Usar descripciones especÃficas de métricas: Define claramente qué mide cada métrica para obtener evaluaciones más precisas
- Elegir rangos apropiados: Selecciona rangos de puntuación que proporcionen suficiente detalle sin ser excesivamente complejos
- Conectar con bloques de agente: Utiliza bloques evaluadores para evaluar las salidas de bloques de agente y crear bucles de retroalimentación
- Usar métricas consistentes: Para análisis comparativos, mantén métricas consistentes en evaluaciones similares
- Combinar múltiples métricas: Usa varias métricas para obtener una evaluación integral