Sim

Speech-to-Text

Konvertiere Sprache in Text mit KI

Transkribiere Sprache zu Text mit modernsten KI-Modellen führender Anbieter. Die Sim Speech-to-Text (STT)-Tools ermöglichen es dir, Audio- und Videodateien in präzise Transkripte umzuwandeln, mit Unterstützung für mehrere Sprachen, Zeitstempel und optionaler Übersetzung.

Unterstützte Anbieter:

  • OpenAI Whisper: Fortschrittliches Open-Source-STT-Modell von OpenAI. Unterstützt Modelle wie whisper-1 und verarbeitet eine Vielzahl von Sprachen und Audioformaten.
  • Deepgram: Echtzeit- und Batch-STT-API mit Deep-Learning-Modellen wie nova-3, nova-2 und whisper-large. Bietet Funktionen wie Sprechererkennung, Intentionserkennung und branchenspezifische Anpassungen.
  • ElevenLabs: Bekannt für hochwertige Sprach-KI, bietet ElevenLabs STT-Modelle mit Fokus auf Genauigkeit und natürlichem Sprachverständnis für zahlreiche Sprachen und Dialekte.

Wähle den Anbieter und das Modell, das am besten zu deiner Aufgabe passt – sei es schnelle, produktionsreife Transkription (Deepgram), hochpräzise Mehrsprachenfähigkeit (Whisper) oder fortschrittliches Verständnis und Sprachabdeckung (ElevenLabs).

Nutzungsanleitung

Transkribiere Audio- und Videodateien zu Text mit führenden KI-Anbietern. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.

Tools

stt_whisper

Transkribiere Audio zu Text mit OpenAI Whisper

Eingabe

ParameterTypErforderlichBeschreibung
providerstringJaSTT-Anbieter (whisper)
apiKeystringJaOpenAI API-Schlüssel
modelstringNeinZu verwendendes Whisper-Modell (Standard: whisper-1)
audioFilefileNeinZu transkribierende Audio- oder Videodatei
audioFileReferencefileNeinVerweis auf Audio-/Videodatei aus vorherigen Blöcken
audioUrlstringNeinURL zu Audio- oder Videodatei
languagestringNeinSprachcode (z.B. "en", "es", "fr") oder "auto" für automatische Erkennung
timestampsstringNeinZeitstempel-Granularität: none, sentence oder word
translateToEnglishbooleanNeinAudio ins Englische übersetzen

Ausgabe

ParameterTypBeschreibung
transcriptstringVollständig transkribierter Text
segmentsarraySegmente mit Zeitstempeln
languagestringErkannte oder angegebene Sprache
durationnumberAudiodauer in Sekunden
confidencenumberGesamter Konfidenzwert

stt_deepgram

Audio mit Deepgram in Text transkribieren

Eingabe

ParameterTypErforderlichBeschreibung
providerstringJaSTT-Anbieter (deepgram)
apiKeystringJaDeepgram API-Schlüssel
modelstringNeinZu verwendendes Deepgram-Modell (nova-3, nova-2, whisper-large, etc.)
audioFilefileNeinZu transkribierendes Audio- oder Videodatei
audioFileReferencefileNeinReferenz auf Audio-/Videodatei aus vorherigen Blöcken
audioUrlstringNeinURL zu Audio- oder Videodatei
languagestringNeinSprachcode (z.B. "en", "es", "fr") oder "auto" für automatische Erkennung
timestampsstringNeinZeitstempel-Granularität: none, sentence oder word
diarizationbooleanNeinSprechererkennung aktivieren

Ausgabe

ParameterTypBeschreibung
transcriptstringVollständig transkribierter Text
segmentsarraySegmente mit Zeitstempeln und Sprecherkennungen
languagestringErkannte oder angegebene Sprache
durationnumberAudiodauer in Sekunden
confidencenumberGesamter Konfidenzwert

stt_elevenlabs

Audio in Text transkribieren mit ElevenLabs

Eingabe

ParameterTypErforderlichBeschreibung
providerstringJaSTT-Anbieter (elevenlabs)
apiKeystringJaElevenLabs API-Schlüssel
modelstringNeinZu verwendenes ElevenLabs-Modell (scribe_v1, scribe_v1_experimental)
audioFilefileNeinAudio- oder Videodatei zur Transkription
audioFileReferencefileNeinReferenz zu Audio-/Videodatei aus vorherigen Blöcken
audioUrlstringNeinURL zu Audio- oder Videodatei
languagestringNeinSprachcode (z.B. "en", "es", "fr") oder "auto" für automatische Erkennung
timestampsstringNeinZeitstempel-Granularität: none, sentence oder word

Ausgabe

ParameterTypBeschreibung
transcriptstringVollständig transkribierter Text
segmentsarraySegmente mit Zeitstempeln
languagestringErkannte oder angegebene Sprache
durationnumberAudiodauer in Sekunden
confidencenumberGesamter Konfidenzwert

Hinweise

  • Kategorie: tools
  • Typ: stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started