Sim

Reconnaissance vocale

Convertir la parole en texte à l'aide de l'IA

Transcrivez la parole en texte en utilisant des modèles d'IA de pointe des principaux fournisseurs. Les outils Sim de reconnaissance vocale (STT) vous permettent de convertir des fichiers audio et vidéo en transcriptions précises, prenant en charge plusieurs langues, horodatages et traduction optionnelle.

Fournisseurs pris en charge :

  • OpenAI Whisper : Modèle STT open-source avancé d'OpenAI. Prend en charge des modèles tels que whisper-1 et gère une grande variété de langues et de formats audio.
  • Deepgram : API STT en temps réel et par lots avec des modèles d'apprentissage profond comme nova-3, nova-2 et whisper-large. Offre des fonctionnalités comme la diarisation, la reconnaissance d'intention et le réglage spécifique à l'industrie.
  • ElevenLabs : Connu pour l'IA vocale de haute qualité, ElevenLabs fournit des modèles STT axés sur la précision et la compréhension du langage naturel pour de nombreuses langues et dialectes.

Choisissez le fournisseur et le modèle les mieux adaptés à votre tâche — que ce soit pour une transcription rapide de qualité production (Deepgram), une capacité multilingue hautement précise (Whisper), ou une compréhension avancée et une couverture linguistique étendue (ElevenLabs).

Instructions d'utilisation

Transcrivez des fichiers audio et vidéo en texte à l'aide des principaux fournisseurs d'IA. Prend en charge plusieurs langues, horodatages et diarisation des locuteurs.

Outils

stt_whisper

Transcrire l'audio en texte avec OpenAI Whisper

Entrée

ParamètreTypeObligatoireDescription
providerstringOuiFournisseur STT (whisper)
apiKeystringOuiClé API OpenAI
modelstringNonModèle Whisper à utiliser (par défaut : whisper-1)
audioFilefileNonFichier audio ou vidéo à transcrire
audioFileReferencefileNonRéférence au fichier audio/vidéo des blocs précédents
audioUrlstringNonURL vers un fichier audio ou vidéo
languagestringNonCode de langue (ex. "en", "es", "fr") ou "auto" pour la détection automatique
timestampsstringNonGranularité des horodatages : none, sentence, ou word
translateToEnglishbooleanNonTraduire l'audio en anglais

Sortie

ParamètreTypeDescription
transcriptstringTexte transcrit complet
segmentsarraySegments horodatés
languagestringLangue détectée ou spécifiée
durationnumberDurée audio en secondes
confidencenumberScore de confiance global

stt_deepgram

Transcrire l'audio en texte en utilisant Deepgram

Entrée

ParamètreTypeObligatoireDescription
providerstringOuiFournisseur STT (deepgram)
apiKeystringOuiClé API Deepgram
modelstringNonModèle Deepgram à utiliser (nova-3, nova-2, whisper-large, etc.)
audioFilefileNonFichier audio ou vidéo à transcrire
audioFileReferencefileNonRéférence au fichier audio/vidéo des blocs précédents
audioUrlstringNonURL vers un fichier audio ou vidéo
languagestringNonCode de langue (ex. "en", "es", "fr") ou "auto" pour la détection automatique
timestampsstringNonGranularité des horodatages : none, sentence, ou word
diarizationbooleanNonActiver la diarisation des locuteurs

Sortie

ParamètreTypeDescription
transcriptstringTexte transcrit complet
segmentsarraySegments horodatés avec étiquettes de locuteurs
languagestringLangue détectée ou spécifiée
durationnumberDurée audio en secondes
confidencenumberScore de confiance global

stt_elevenlabs

Transcrire l'audio en texte avec ElevenLabs

Entrée

ParamètreTypeObligatoireDescription
providerchaîneOuiFournisseur STT (elevenlabs)
apiKeychaîneOuiClé API ElevenLabs
modelchaîneNonModèle ElevenLabs à utiliser (scribe_v1, scribe_v1_experimental)
audioFilefichierNonFichier audio ou vidéo à transcrire
audioFileReferencefichierNonRéférence au fichier audio/vidéo des blocs précédents
audioUrlchaîneNonURL vers un fichier audio ou vidéo
languagechaîneNonCode de langue (ex. "en", "es", "fr") ou "auto" pour la détection automatique
timestampschaîneNonGranularité des horodatages : none, sentence, ou word

Sortie

ParamètreTypeDescription
transcriptchaîneTexte transcrit complet
segmentstableauSegments horodatés
languagechaîneLangue détectée ou spécifiée
durationnombreDurée audio en secondes
confidencenombreScore de confiance global

Remarques

  • Catégorie : tools
  • Type : stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started