Sim

Voz a texto

Convierte voz a texto usando IA

Transcribe voz a texto utilizando modelos de IA de vanguardia de proveedores líderes. Las herramientas de Sim de voz a texto (STT) te permiten convertir archivos de audio y video en transcripciones precisas, con soporte para múltiples idiomas, marcas de tiempo y traducción opcional.

Proveedores compatibles:

  • OpenAI Whisper: Modelo STT avanzado de código abierto de OpenAI. Compatible con modelos como whisper-1 y maneja una amplia variedad de idiomas y formatos de audio.
  • Deepgram: API de STT en tiempo real y por lotes con modelos de aprendizaje profundo como nova-3, nova-2 y whisper-large. Ofrece características como diarización, reconocimiento de intención y ajuste específico para industrias.
  • ElevenLabs: Conocido por su IA de voz de alta calidad, ElevenLabs proporciona modelos STT enfocados en precisión y comprensión del lenguaje natural para numerosos idiomas y dialectos.

Elige el proveedor y modelo que mejor se adapte a tu tarea, ya sea transcripción rápida de nivel de producción (Deepgram), capacidad multilingüe altamente precisa (Whisper) o comprensión avanzada y cobertura de idiomas (ElevenLabs).

Instrucciones de uso

Transcribe archivos de audio y video a texto utilizando proveedores de IA líderes. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes.

Herramientas

stt_whisper

Transcribe audio a texto usando OpenAI Whisper

Entrada

ParámetroTipoRequeridoDescripción
providerstringProveedor STT (whisper)
apiKeystringClave API de OpenAI
modelstringNoModelo Whisper a utilizar (predeterminado: whisper-1)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia a archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marcas de tiempo: none, sentence, o word
translateToEnglishbooleanNoTraducir audio a inglés

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general

stt_deepgram

Transcribe audio a texto usando Deepgram

Entrada

ParámetroTipoObligatorioDescripción
providerstringProveedor STT (deepgram)
apiKeystringClave API de Deepgram
modelstringNoModelo de Deepgram a utilizar (nova-3, nova-2, whisper-large, etc.)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marcas de tiempo: none, sentence, o word
diarizationbooleanNoHabilitar diarización de hablantes

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo y etiquetas de hablantes
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general

stt_elevenlabs

Transcribe audio a texto usando ElevenLabs

Entrada

ParámetroTipoRequeridoDescripción
providerstringProveedor STT (elevenlabs)
apiKeystringClave API de ElevenLabs
modelstringNoModelo de ElevenLabs a utilizar (scribe_v1, scribe_v1_experimental)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marca de tiempo: none, sentence, o word

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general

Notas

  • Categoría: tools
  • Tipo: stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started