Evaluator
Der Evaluator-Block nutzt KI, um die Inhaltsqualität anhand anpassbarer Bewertungsmetriken zu bewerten, die du selbst definierst. Perfekt für Qualitätskontrolle, A/B-Tests und um sicherzustellen, dass deine KI-Ausgaben bestimmte Standards erfüllen.

Überblick
Mit dem Evaluator-Block kannst du:
Inhaltsqualität bewerten: Nutze KI, um Inhalte anhand benutzerdefinierter Metriken mit numerischen Werten zu bewerten
Benutzerdefinierte Metriken erstellen: Erstelle spezifische Bewertungskriterien, die auf deinen Anwendungsfall zugeschnitten sind
Qualitätskontrolle automatisieren: Erstelle Workflows, die Inhalte automatisch bewerten und filtern
Leistung verfolgen: Überwache Verbesserungen und Konsistenz im Laufe der Zeit mit objektiver Bewertung
Funktionsweise
Der Evaluator-Block verarbeitet Inhalte durch KI-gestützte Bewertung:
- Inhalte empfangen - Nimmt Eingabeinhalte von vorherigen Blöcken in deinem Workflow entgegen
- Metriken anwenden - Bewertet Inhalte anhand deiner definierten benutzerdefinierten Metriken
- Bewertungen generieren - KI-Modell weist numerische Werte für jede Metrik zu
- Zusammenfassung bereitstellen - Liefert detaillierte Auswertung mit Bewertungen und Erklärungen
Konfigurationsoptionen
Bewertungsmetriken
Definiere benutzerdefinierte Metriken, anhand derer Inhalte bewertet werden. Jede Metrik umfasst:
- Name: Eine kurze Bezeichnung für die Metrik
- Beschreibung: Eine detaillierte Erklärung dessen, was die Metrik misst
- Bereich: Der numerische Bereich für die Bewertung (z.B. 1-5, 0-10)
Beispielmetriken:
Accuracy (1-5): How factually accurate is the content?
Clarity (1-5): How clear and understandable is the content?
Relevance (1-5): How relevant is the content to the original query?
Inhalt
Der zu bewertende Inhalt. Dies kann sein:
- Direkt in der Blockkonfiguration bereitgestellt
- Verbunden mit der Ausgabe eines anderen Blocks (typischerweise ein Agent-Block)
- Dynamisch während der Workflow-Ausführung generiert
Modellauswahl
Wählen Sie ein KI-Modell für die Durchführung der Bewertung:
OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1 Anthropic: Claude 3.7 Sonnet Google: Gemini 2.5 Pro, Gemini 2.0 Flash Andere Anbieter: Groq, Cerebras, xAI, DeepSeek Lokale Modelle: Jedes Modell, das auf Ollama läuft
Empfehlung: Verwenden Sie Modelle mit starken Argumentationsfähigkeiten wie GPT-4o oder Claude 3.7 Sonnet für genauere Bewertungen.
API-Schlüssel
Ihr API-Schlüssel für den ausgewählten LLM-Anbieter. Dieser wird sicher gespeichert und für die Authentifizierung verwendet.
Funktionsweise
- Der Evaluator-Block nimmt den bereitgestellten Inhalt und Ihre benutzerdefinierten Metriken
- Er generiert einen spezialisierten Prompt, der das LLM anweist, den Inhalt zu bewerten
- Der Prompt enthält klare Richtlinien zur Bewertung jeder Metrik
- Das LLM bewertet den Inhalt und gibt numerische Werte für jede Metrik zurück
- Der Evaluator-Block formatiert diese Werte als strukturierte Ausgabe zur Verwendung in Ihrem Workflow
Beispielanwendungsfälle
Bewertung der Inhaltsqualität
Szenario: Bewertung der Blogpost-Qualität vor der Veröffentlichung
- Agent-Block generiert Blogpost-Inhalte
- Evaluator bewertet Genauigkeit, Lesbarkeit und Engagement
- Bedingungsblock prüft, ob die Werte Mindestschwellen erreichen
- Hohe Werte → Veröffentlichen, Niedrige Werte → Überarbeiten und erneut versuchen
A/B-Testing von Inhalten
Szenario: Vergleich mehrerer KI-generierter Antworten
- Parallelblock generiert mehrere Antwortvarianten
- Evaluator bewertet jede Variante nach Klarheit und Relevanz
- Funktionsblock wählt die Antwort mit der höchsten Bewertung aus
- Antwortblock gibt das beste Ergebnis zurück
Qualitätskontrolle im Kundensupport
Szenario: Sicherstellen, dass Support-Antworten den Qualitätsstandards entsprechen
- Support-Mitarbeiter generiert Antwort auf Kundenanfrage
- Evaluator bewertet Hilfsbereitschaft, Einfühlungsvermögen und Genauigkeit
- Bewertungen werden für Training und Leistungsüberwachung protokolliert
- Niedrige Bewertungen lösen einen manuellen Überprüfungsprozess aus
Eingaben und Ausgaben
Inhalt: Der zu bewertende Text oder strukturierte Daten
Bewertungsmetriken: Benutzerdefinierte Kriterien mit Bewertungsbereichen
Modell: KI-Modell für die Bewertungsanalyse
API-Schlüssel: Authentifizierung für den ausgewählten LLM-Anbieter
evaluator.content: Zusammenfassung der Bewertung
evaluator.model: Für die Bewertung verwendetes Modell
evaluator.tokens: Token-Nutzungsstatistiken
evaluator.cost: Kostenübersicht für den Bewertungsaufruf
Metrik-Bewertungen: Numerische Bewertungen für jede definierte Metrik
Bewertungszusammenfassung: Detaillierte Beurteilung mit Erläuterungen
Zugriff: Verfügbar in Blöcken nach dem Evaluator
Best Practices
- Verwenden Sie spezifische Metrikbeschreibungen: Definieren Sie klar, was jede Metrik misst, um genauere Bewertungen zu erhalten
- Wählen Sie geeignete Bereiche: Wählen Sie Bewertungsbereiche, die ausreichend Granularität bieten, ohne übermäßig komplex zu sein
- Verbinden Sie mit Agent-Blöcken: Verwenden Sie Evaluator-Blöcke, um die Ausgaben von Agent-Blöcken zu bewerten und Feedback-Schleifen zu erstellen
- Verwenden Sie konsistente Metriken: Für vergleichende Analysen sollten Sie konsistente Metriken über ähnliche Bewertungen hinweg beibehalten
- Kombinieren Sie mehrere Metriken: Verwenden Sie mehrere Metriken, um eine umfassende Bewertung zu erhalten