Sim

Evaluator

Der Evaluator-Block nutzt KI, um die Inhaltsqualität anhand anpassbarer Bewertungsmetriken zu bewerten, die du selbst definierst. Perfekt für Qualitätskontrolle, A/B-Tests und um sicherzustellen, dass deine KI-Ausgaben bestimmte Standards erfüllen.

Evaluator-Block-Konfiguration

Überblick

Mit dem Evaluator-Block kannst du:

Inhaltsqualität bewerten: Nutze KI, um Inhalte anhand benutzerdefinierter Metriken mit numerischen Werten zu bewerten

Benutzerdefinierte Metriken erstellen: Erstelle spezifische Bewertungskriterien, die auf deinen Anwendungsfall zugeschnitten sind

Qualitätskontrolle automatisieren: Erstelle Workflows, die Inhalte automatisch bewerten und filtern

Leistung verfolgen: Überwache Verbesserungen und Konsistenz im Laufe der Zeit mit objektiver Bewertung

Funktionsweise

Der Evaluator-Block verarbeitet Inhalte durch KI-gestützte Bewertung:

  1. Inhalte empfangen - Nimmt Eingabeinhalte von vorherigen Blöcken in deinem Workflow entgegen
  2. Metriken anwenden - Bewertet Inhalte anhand deiner definierten benutzerdefinierten Metriken
  3. Bewertungen generieren - KI-Modell weist numerische Werte für jede Metrik zu
  4. Zusammenfassung bereitstellen - Liefert detaillierte Auswertung mit Bewertungen und Erklärungen

Konfigurationsoptionen

Bewertungsmetriken

Definiere benutzerdefinierte Metriken, anhand derer Inhalte bewertet werden. Jede Metrik umfasst:

  • Name: Eine kurze Bezeichnung für die Metrik
  • Beschreibung: Eine detaillierte Erklärung dessen, was die Metrik misst
  • Bereich: Der numerische Bereich für die Bewertung (z.B. 1-5, 0-10)

Beispielmetriken:

Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?

Inhalt

Der zu bewertende Inhalt. Dies kann sein:

  • Direkt in der Blockkonfiguration bereitgestellt
  • Verbunden mit der Ausgabe eines anderen Blocks (typischerweise ein Agent-Block)
  • Dynamisch während der Workflow-Ausführung generiert

Modellauswahl

Wählen Sie ein KI-Modell für die Durchführung der Bewertung:

OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1 Anthropic: Claude 3.7 Sonnet Google: Gemini 2.5 Pro, Gemini 2.0 Flash Andere Anbieter: Groq, Cerebras, xAI, DeepSeek Lokale Modelle: Jedes Modell, das auf Ollama läuft

Empfehlung: Verwenden Sie Modelle mit starken Argumentationsfähigkeiten wie GPT-4o oder Claude 3.7 Sonnet für genauere Bewertungen.

API-Schlüssel

Ihr API-Schlüssel für den ausgewählten LLM-Anbieter. Dieser wird sicher gespeichert und für die Authentifizierung verwendet.

Funktionsweise

  1. Der Evaluator-Block nimmt den bereitgestellten Inhalt und Ihre benutzerdefinierten Metriken
  2. Er generiert einen spezialisierten Prompt, der das LLM anweist, den Inhalt zu bewerten
  3. Der Prompt enthält klare Richtlinien zur Bewertung jeder Metrik
  4. Das LLM bewertet den Inhalt und gibt numerische Werte für jede Metrik zurück
  5. Der Evaluator-Block formatiert diese Werte als strukturierte Ausgabe zur Verwendung in Ihrem Workflow

Beispielanwendungsfälle

Bewertung der Inhaltsqualität

Szenario: Bewertung der Blogpost-Qualität vor der Veröffentlichung

  1. Agent-Block generiert Blogpost-Inhalte
  2. Evaluator bewertet Genauigkeit, Lesbarkeit und Engagement
  3. Bedingungsblock prüft, ob die Werte Mindestschwellen erreichen
  4. Hohe Werte → Veröffentlichen, Niedrige Werte → Überarbeiten und erneut versuchen

A/B-Testing von Inhalten

Szenario: Vergleich mehrerer KI-generierter Antworten

  1. Parallelblock generiert mehrere Antwortvarianten
  2. Evaluator bewertet jede Variante nach Klarheit und Relevanz
  3. Funktionsblock wählt die Antwort mit der höchsten Bewertung aus
  4. Antwortblock gibt das beste Ergebnis zurück

Qualitätskontrolle im Kundensupport

Szenario: Sicherstellen, dass Support-Antworten den Qualitätsstandards entsprechen

  1. Support-Mitarbeiter generiert Antwort auf Kundenanfrage
  2. Evaluator bewertet Hilfsbereitschaft, Einfühlungsvermögen und Genauigkeit
  3. Bewertungen werden für Training und Leistungsüberwachung protokolliert
  4. Niedrige Bewertungen lösen einen manuellen Überprüfungsprozess aus

Eingaben und Ausgaben

  • Inhalt: Der zu bewertende Text oder strukturierte Daten

  • Bewertungsmetriken: Benutzerdefinierte Kriterien mit Bewertungsbereichen

  • Modell: KI-Modell für die Bewertungsanalyse

  • API-Schlüssel: Authentifizierung für den ausgewählten LLM-Anbieter

  • evaluator.content: Zusammenfassung der Bewertung

  • evaluator.model: Für die Bewertung verwendetes Modell

  • evaluator.tokens: Token-Nutzungsstatistiken

  • evaluator.cost: Kostenübersicht für den Bewertungsaufruf

  • Metrik-Bewertungen: Numerische Bewertungen für jede definierte Metrik

  • Bewertungszusammenfassung: Detaillierte Beurteilung mit Erläuterungen

  • Zugriff: Verfügbar in Blöcken nach dem Evaluator

Best Practices

  • Verwenden Sie spezifische Metrikbeschreibungen: Definieren Sie klar, was jede Metrik misst, um genauere Bewertungen zu erhalten
  • Wählen Sie geeignete Bereiche: Wählen Sie Bewertungsbereiche, die ausreichend Granularität bieten, ohne übermäßig komplex zu sein
  • Verbinden Sie mit Agent-Blöcken: Verwenden Sie Evaluator-Blöcke, um die Ausgaben von Agent-Blöcken zu bewerten und Feedback-Schleifen zu erstellen
  • Verwenden Sie konsistente Metriken: Für vergleichende Analysen sollten Sie konsistente Metriken über ähnliche Bewertungen hinweg beibehalten
  • Kombinieren Sie mehrere Metriken: Verwenden Sie mehrere Metriken, um eine umfassende Bewertung zu erhalten
Evaluator