Voz a texto
Convierte voz a texto usando IA
Transcribe voz a texto utilizando los modelos de IA más avanzados de proveedores de clase mundial. Las herramientas de reconocimiento de voz (STT) de Sim te permiten convertir audio y video en transcripciones precisas, con marcas de tiempo y opcionalmente traducidas, compatibles con una diversidad de idiomas y mejoradas con características avanzadas como la diarización e identificación de hablantes.
Proveedores y modelos compatibles:
-
OpenAI Whisper (OpenAI):
Whisper de OpenAI es un modelo de aprendizaje profundo de código abierto reconocido por su robustez en diferentes idiomas y condiciones de audio. Admite modelos avanzados comowhisper-1, destacándose en transcripción, traducción y tareas que exigen alta generalización del modelo. Respaldado por OpenAI—la empresa conocida por ChatGPT e investigación líder en IA—Whisper es ampliamente utilizado en investigación y como referencia para evaluación comparativa. -
Deepgram (Deepgram Inc.):
Con sede en San Francisco, Deepgram ofrece APIs de reconocimiento de voz escalables y de nivel de producción para desarrolladores y empresas. Los modelos de Deepgram incluyennova-3,nova-2ywhisper-large, ofreciendo transcripción en tiempo real y por lotes con precisión líder en la industria, soporte multilingüe, puntuación automática, diarización inteligente, análisis de llamadas y características para casos de uso que van desde telefonía hasta producción de medios. -
ElevenLabs (ElevenLabs):
Líder en IA de voz, ElevenLabs es especialmente conocido por su síntesis y reconocimiento de voz premium. Su producto STT ofrece alta precisión y comprensión natural de numerosos idiomas, dialectos y acentos. Los modelos recientes de STT de ElevenLabs están optimizados para claridad, distinción de hablantes y son adecuados tanto para escenarios creativos como de accesibilidad. ElevenLabs es reconocido por sus avances de vanguardia en tecnologías de voz impulsadas por IA. -
AssemblyAI (AssemblyAI Inc.):
AssemblyAI proporciona reconocimiento de voz altamente preciso basado en API, con características como capítulos automáticos, detección de temas, resúmenes, análisis de sentimientos y moderación de contenido junto con la transcripción. Su modelo propietario, incluyendo el aclamadoConformer-2, impulsa algunas de las aplicaciones más grandes de medios, centros de llamadas y cumplimiento normativo en la industria. AssemblyAI cuenta con la confianza de empresas Fortune 500 y startups líderes en IA a nivel mundial. -
Google Cloud Speech-to-Text (Google Cloud):
La API Speech-to-Text de nivel empresarial de Google admite más de 125 idiomas y variantes, ofreciendo alta precisión y características como transmisión en tiempo real, confianza a nivel de palabra, diarización de hablantes, puntuación automática, vocabulario personalizado y ajuste específico por dominio. Modelos comolatest_long,video, y modelos optimizados por dominio están disponibles, impulsados por años de investigación de Google y desplegados para escalabilidad global. -
AWS Transcribe (Amazon Web Services):
AWS Transcribe aprovecha la infraestructura en la nube de Amazon para ofrecer un robusto reconocimiento de voz como API. Admite múltiples idiomas y características como identificación de hablantes, vocabulario personalizado, identificación de canales (para audio de centros de llamadas) y transcripción específica para medicina. Los modelos populares incluyenstandardy variaciones específicas por dominio. AWS Transcribe es ideal para organizaciones que ya utilizan la nube de Amazon.
Cómo elegir:
Selecciona el proveedor y modelo que se adapte a tu aplicación—ya sea que necesites transcripción rápida y lista para empresas con análisis adicionales (Deepgram, AssemblyAI, Google, AWS), alta versatilidad y acceso de código abierto (OpenAI Whisper), o comprensión avanzada de hablantes/contextual (ElevenLabs). Considera el precio, la cobertura de idiomas, la precisión y cualquier característica especial (como resúmenes, capítulos o análisis de sentimiento) que puedas necesitar.
Para más detalles sobre capacidades, precios, características destacadas y opciones de ajuste fino, consulta la documentación oficial de cada proveedor a través de los enlaces anteriores.
Instrucciones de uso
Transcribe archivos de audio y video a texto utilizando proveedores líderes de IA. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes.
Herramientas
stt_whisper
Transcribe audio a texto usando OpenAI Whisper
Entrada
| Parámetro | Tipo | Requerido | Descripción |
|---|---|---|---|
provider | string | Sí | Proveedor STT (whisper) |
apiKey | string | Sí | Clave API de OpenAI |
model | string | No | Modelo de Whisper a utilizar (predeterminado: whisper-1) |
audioFile | file | No | Archivo de audio o video para transcribir |
audioFileReference | file | No | Referencia al archivo de audio/video de bloques anteriores |
audioUrl | string | No | URL al archivo de audio o video |
language | string | No | Código de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática |
timestamps | string | No | Granularidad de marca de tiempo: none, sentence, o word |
translateToEnglish | boolean | No | Traducir audio a inglés |
prompt | string | No | Texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. Ayuda con nombres propios y contexto. |
temperature | number | No | Temperatura de muestreo entre 0 y 1. Valores más altos hacen que la salida sea más aleatoria, valores más bajos más enfocada y determinista. |
Salida
| Parámetro | Tipo | Descripción |
|---|---|---|
transcript | string | Texto transcrito completo |
segments | array | Segmentos con marcas de tiempo |
language | string | Idioma detectado o especificado |
duration | number | Duración del audio en segundos |
stt_deepgram
Transcribir audio a texto usando Deepgram
Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
|---|---|---|---|
provider | string | Sí | Proveedor STT (deepgram) |
apiKey | string | Sí | Clave API de Deepgram |
model | string | No | Modelo de Deepgram a utilizar (nova-3, nova-2, whisper-large, etc.) |
audioFile | file | No | Archivo de audio o video para transcribir |
audioFileReference | file | No | Referencia al archivo de audio/video de bloques anteriores |
audioUrl | string | No | URL al archivo de audio o video |
language | string | No | Código de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática |
timestamps | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
diarization | boolean | No | Habilitar diarización de hablantes |
Salida
| Parámetro | Tipo | Descripción |
|---|---|---|
transcript | string | Texto transcrito completo |
segments | array | Segmentos con marcas de tiempo y etiquetas de hablantes |
language | string | Idioma detectado o especificado |
duration | number | Duración del audio en segundos |
confidence | number | Puntuación de confianza general |
stt_elevenlabs
Transcribir audio a texto usando ElevenLabs
Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
|---|---|---|---|
provider | string | Sí | Proveedor STT (elevenlabs) |
apiKey | string | Sí | Clave API de ElevenLabs |
model | string | No | Modelo de ElevenLabs a utilizar (scribe_v1, scribe_v1_experimental) |
audioFile | file | No | Archivo de audio o video para transcribir |
audioFileReference | file | No | Referencia al archivo de audio/video de bloques anteriores |
audioUrl | string | No | URL al archivo de audio o video |
language | string | No | Código de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática |
timestamps | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
Salida
| Parámetro | Tipo | Descripción |
|---|---|---|
transcript | string | Texto transcrito completo |
segments | array | Segmentos con marcas de tiempo |
language | string | Idioma detectado o especificado |
duration | number | Duración del audio en segundos |
confidence | number | Puntuación de confianza general |
stt_assemblyai
Transcribir audio a texto usando AssemblyAI con funciones avanzadas de PLN
Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
|---|---|---|---|
provider | string | Sí | Proveedor STT (assemblyai) |
apiKey | string | Sí | Clave API de AssemblyAI |
model | string | No | Modelo de AssemblyAI a utilizar (predeterminado: best) |
audioFile | file | No | Archivo de audio o video para transcribir |
audioFileReference | file | No | Referencia al archivo de audio/video de bloques anteriores |
audioUrl | string | No | URL al archivo de audio o video |
language | string | No | Código de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática |
timestamps | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
diarization | boolean | No | Habilitar diarización de hablantes |
sentiment | boolean | No | Habilitar análisis de sentimiento |
entityDetection | boolean | No | Habilitar detección de entidades |
piiRedaction | boolean | No | Habilitar redacción de IIP |
summarization | boolean | No | Habilitar resumen automático |
Salida
| Parámetro | Tipo | Descripción |
|---|---|---|
transcript | string | Texto transcrito completo |
segments | array | Segmentos con marcas de tiempo y etiquetas de hablantes |
language | string | Idioma detectado o especificado |
duration | number | Duración del audio en segundos |
confidence | number | Puntuación de confianza general |
sentiment | array | Resultados del análisis de sentimiento |
entities | array | Entidades detectadas |
summary | string | Resumen generado automáticamente |
stt_gemini
Transcribe audio a texto usando Google Gemini con capacidades multimodales
Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
|---|---|---|---|
provider | string | Sí | Proveedor STT (gemini) |
apiKey | string | Sí | Clave API de Google |
model | string | No | Modelo de Gemini a utilizar (predeterminado: gemini-2.5-flash) |
audioFile | file | No | Archivo de audio o video para transcribir |
audioFileReference | file | No | Referencia al archivo de audio/video de bloques anteriores |
audioUrl | string | No | URL al archivo de audio o video |
language | string | No | Código de idioma (p.ej., "en", "es", "fr") o "auto" para detección automática |
timestamps | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
Salida
| Parámetro | Tipo | Descripción |
|---|---|---|
transcript | string | Texto transcrito completo |
segments | array | Segmentos con marcas de tiempo |
language | string | Idioma detectado o especificado |
duration | number | Duración del audio en segundos |
confidence | number | Puntuación de confianza general |
Notas
- Categoría:
tools - Tipo:
stt