Sim

Evaluator

Der Evaluator-Block nutzt KI, um die Inhaltsqualität anhand benutzerdefinierter Metriken zu bewerten. Perfekt für Qualitätskontrolle, A/B-Tests und um sicherzustellen, dass KI-Ausgaben bestimmte Standards erfüllen.

Evaluator-Block-Konfiguration

Konfigurationsoptionen

Bewertungsmetriken

Definieren Sie benutzerdefinierte Metriken, anhand derer Inhalte bewertet werden. Jede Metrik umfasst:

  • Name: Eine kurze Bezeichnung für die Metrik
  • Beschreibung: Eine detaillierte Erklärung, was die Metrik misst
  • Bereich: Der numerische Bereich für die Bewertung (z.B. 1-5, 0-10)

Beispielmetriken:

Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?

Inhalt

Der zu bewertende Inhalt. Dies kann sein:

  • Direkt in der Blockkonfiguration bereitgestellt
  • Verbunden mit der Ausgabe eines anderen Blocks (typischerweise ein Agent-Block)
  • Dynamisch während der Workflow-Ausführung generiert

Modellauswahl

Wählen Sie ein KI-Modell für die Durchführung der Bewertung:

  • OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1
  • Anthropic: Claude 3.7 Sonnet
  • Google: Gemini 2.5 Pro, Gemini 2.0 Flash
  • Andere Anbieter: Groq, Cerebras, xAI, DeepSeek
  • Lokale Modelle: Ollama-kompatible Modelle

Verwenden Sie Modelle mit starken Argumentationsfähigkeiten wie GPT-4o oder Claude 3.7 Sonnet für beste Ergebnisse.

API-Schlüssel

Ihr API-Schlüssel für den ausgewählten LLM-Anbieter. Dieser wird sicher gespeichert und für die Authentifizierung verwendet.

Beispielanwendungsfälle

Bewertung der Inhaltsqualität - Inhalte vor der Veröffentlichung bewerten

Agent (Generate) → Evaluator (Score) → Condition (Check threshold) → Publish or Revise

A/B-Tests von Inhalten - Vergleich mehrerer KI-generierter Antworten

Parallel (Variations) → Evaluator (Score Each) → Function (Select Best) → Response

Qualitätskontrolle im Kundenservice - Sicherstellen, dass Antworten Qualitätsstandards erfüllen

Agent (Support Response) → Evaluator (Score) → Function (Log) → Condition (Review if Low)

Ausgaben

  • <evaluator.content>: Zusammenfassung der Bewertung mit Punktzahlen
  • <evaluator.model>: Für die Bewertung verwendetes Modell
  • <evaluator.tokens>: Statistik zur Token-Nutzung
  • <evaluator.cost>: Geschätzte Bewertungskosten

Best Practices

  • Verwenden Sie spezifische Metrikbeschreibungen: Definieren Sie klar, was jede Metrik misst, um genauere Bewertungen zu erhalten
  • Wählen Sie geeignete Bereiche: Wählen Sie Bewertungsbereiche, die ausreichend Granularität bieten, ohne zu komplex zu sein
  • Verbinden Sie mit Agent-Blöcken: Verwenden Sie Evaluator-Blöcke, um die Ausgaben von Agent-Blöcken zu bewerten und Feedback-Schleifen zu erstellen
  • Verwenden Sie konsistente Metriken: Für vergleichende Analysen sollten Sie konsistente Metriken über ähnliche Bewertungen hinweg beibehalten
  • Kombinieren Sie mehrere Metriken: Verwenden Sie verschiedene Metriken, um eine umfassende Bewertung zu erhalten
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started