Sim

Voz a texto

Convierte voz a texto usando IA

Transcribe voz a texto utilizando los modelos de IA más avanzados de proveedores de clase mundial. Las herramientas de reconocimiento de voz (STT) de Sim te permiten convertir audio y video en transcripciones precisas, con marcas de tiempo y opcionalmente traducidas, compatibles con una diversidad de idiomas y mejoradas con características avanzadas como la diarización e identificación de hablantes.

Proveedores y modelos compatibles:

  • OpenAI Whisper (OpenAI):
    Whisper de OpenAI es un modelo de aprendizaje profundo de código abierto reconocido por su robustez en diferentes idiomas y condiciones de audio. Admite modelos avanzados como whisper-1, destacándose en transcripción, traducción y tareas que exigen alta generalización del modelo. Respaldado por OpenAI—la empresa conocida por ChatGPT e investigación líder en IA—Whisper es ampliamente utilizado en investigación y como referencia para evaluación comparativa.

  • Deepgram (Deepgram Inc.):
    Con sede en San Francisco, Deepgram ofrece APIs de reconocimiento de voz escalables y de nivel de producción para desarrolladores y empresas. Los modelos de Deepgram incluyen nova-3, nova-2 y whisper-large, ofreciendo transcripción en tiempo real y por lotes con precisión líder en la industria, soporte multilingüe, puntuación automática, diarización inteligente, análisis de llamadas y características para casos de uso que van desde telefonía hasta producción de medios.

  • ElevenLabs (ElevenLabs):
    Líder en IA de voz, ElevenLabs es especialmente conocido por su síntesis y reconocimiento de voz premium. Su producto STT ofrece alta precisión y comprensión natural de numerosos idiomas, dialectos y acentos. Los modelos recientes de STT de ElevenLabs están optimizados para claridad, distinción de hablantes y son adecuados tanto para escenarios creativos como de accesibilidad. ElevenLabs es reconocido por sus avances de vanguardia en tecnologías de voz impulsadas por IA.

  • AssemblyAI (AssemblyAI Inc.):
    AssemblyAI proporciona reconocimiento de voz altamente preciso basado en API, con características como capítulos automáticos, detección de temas, resúmenes, análisis de sentimientos y moderación de contenido junto con la transcripción. Su modelo propietario, incluyendo el aclamado Conformer-2, impulsa algunas de las aplicaciones más grandes de medios, centros de llamadas y cumplimiento normativo en la industria. AssemblyAI cuenta con la confianza de empresas Fortune 500 y startups líderes en IA a nivel mundial.

  • Google Cloud Speech-to-Text (Google Cloud):
    La API Speech-to-Text de nivel empresarial de Google admite más de 125 idiomas y variantes, ofreciendo alta precisión y características como transmisión en tiempo real, confianza a nivel de palabra, diarización de hablantes, puntuación automática, vocabulario personalizado y ajuste específico por dominio. Modelos como latest_long, video, y modelos optimizados por dominio están disponibles, impulsados por años de investigación de Google y desplegados para escalabilidad global.

  • AWS Transcribe (Amazon Web Services):
    AWS Transcribe aprovecha la infraestructura en la nube de Amazon para ofrecer un robusto reconocimiento de voz como API. Admite múltiples idiomas y características como identificación de hablantes, vocabulario personalizado, identificación de canales (para audio de centros de llamadas) y transcripción específica para medicina. Los modelos populares incluyen standard y variaciones específicas por dominio. AWS Transcribe es ideal para organizaciones que ya utilizan la nube de Amazon.

Cómo elegir:
Selecciona el proveedor y modelo que se adapte a tu aplicación—ya sea que necesites transcripción rápida y lista para empresas con análisis adicionales (Deepgram, AssemblyAI, Google, AWS), alta versatilidad y acceso de código abierto (OpenAI Whisper), o comprensión avanzada de hablantes/contextual (ElevenLabs). Considera el precio, la cobertura de idiomas, la precisión y cualquier característica especial (como resúmenes, capítulos o análisis de sentimiento) que puedas necesitar.

Para más detalles sobre capacidades, precios, características destacadas y opciones de ajuste fino, consulta la documentación oficial de cada proveedor a través de los enlaces anteriores.

Instrucciones de uso

Transcribe archivos de audio y video a texto utilizando proveedores líderes de IA. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes.

Herramientas

stt_whisper

Transcribe audio a texto usando OpenAI Whisper

Entrada

ParámetroTipoRequeridoDescripción
providerstringProveedor STT (whisper)
apiKeystringClave API de OpenAI
modelstringNoModelo de Whisper a utilizar (predeterminado: whisper-1)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marca de tiempo: none, sentence, o word
translateToEnglishbooleanNoTraducir audio a inglés
promptstringNoTexto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. Ayuda con nombres propios y contexto.
temperaturenumberNoTemperatura de muestreo entre 0 y 1. Valores más altos hacen que la salida sea más aleatoria, valores más bajos más enfocada y determinista.

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos

stt_deepgram

Transcribir audio a texto usando Deepgram

Entrada

ParámetroTipoObligatorioDescripción
providerstringProveedor STT (deepgram)
apiKeystringClave API de Deepgram
modelstringNoModelo de Deepgram a utilizar (nova-3, nova-2, whisper-large, etc.)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marcas de tiempo: none, sentence, o word
diarizationbooleanNoHabilitar diarización de hablantes

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo y etiquetas de hablantes
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general

stt_elevenlabs

Transcribir audio a texto usando ElevenLabs

Entrada

ParámetroTipoObligatorioDescripción
providerstringProveedor STT (elevenlabs)
apiKeystringClave API de ElevenLabs
modelstringNoModelo de ElevenLabs a utilizar (scribe_v1, scribe_v1_experimental)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marcas de tiempo: none, sentence, o word

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general

stt_assemblyai

Transcribir audio a texto usando AssemblyAI con funciones avanzadas de PLN

Entrada

ParámetroTipoObligatorioDescripción
providerstringProveedor STT (assemblyai)
apiKeystringClave API de AssemblyAI
modelstringNoModelo de AssemblyAI a utilizar (predeterminado: best)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marcas de tiempo: none, sentence, o word
diarizationbooleanNoHabilitar diarización de hablantes
sentimentbooleanNoHabilitar análisis de sentimiento
entityDetectionbooleanNoHabilitar detección de entidades
piiRedactionbooleanNoHabilitar redacción de IIP
summarizationbooleanNoHabilitar resumen automático

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo y etiquetas de hablantes
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general
sentimentarrayResultados del análisis de sentimiento
entitiesarrayEntidades detectadas
summarystringResumen generado automáticamente

stt_gemini

Transcribe audio a texto usando Google Gemini con capacidades multimodales

Entrada

ParámetroTipoObligatorioDescripción
providerstringProveedor STT (gemini)
apiKeystringClave API de Google
modelstringNoModelo de Gemini a utilizar (predeterminado: gemini-2.5-flash)
audioFilefileNoArchivo de audio o video para transcribir
audioFileReferencefileNoReferencia al archivo de audio/video de bloques anteriores
audioUrlstringNoURL al archivo de audio o video
languagestringNoCódigo de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática
timestampsstringNoGranularidad de marcas de tiempo: none, sentence, o word

Salida

ParámetroTipoDescripción
transcriptstringTexto transcrito completo
segmentsarraySegmentos con marcas de tiempo
languagestringIdioma detectado o especificado
durationnumberDuración del audio en segundos
confidencenumberPuntuación de confianza general

Notas

  • Categoría: tools
  • Tipo: stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started