Sim

Texto a voz

Convierte texto a voz utilizando voces de IA

Convierte texto en voz de sonido natural utilizando las últimas voces de IA. Las herramientas de texto a voz (TTS) de Sim te permiten generar audio a partir de texto escrito en docenas de idiomas, con una selección de voces expresivas, formatos y controles avanzados como velocidad, estilo, emoción y más.

Proveedores y modelos compatibles:

  • OpenAI Text-to-Speech (OpenAI):
    La API TTS de OpenAI ofrece voces ultra realistas utilizando modelos avanzados de IA como tts-1, tts-1-hd y gpt-4o-mini-tts. Las voces incluyen tanto masculinas como femeninas, con opciones como alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage y verse. Compatible con múltiples formatos de audio (mp3, opus, aac, flac, wav, pcm), velocidad ajustable y síntesis en streaming.

  • Deepgram Aura (Deepgram Inc.):
    Aura de Deepgram proporciona voces de IA expresivas en inglés y multilingües, optimizadas para claridad conversacional, baja latencia y personalización. Están disponibles modelos como aura-asteria-en, aura-luna-en y otros. Compatible con múltiples formatos de codificación (linear16, mp3, opus, aac, flac) y ajuste fino de velocidad, frecuencia de muestreo y estilo.

  • ElevenLabs Text-to-Speech (ElevenLabs):
    ElevenLabs lidera en TTS realista y emocionalmente rico, ofreciendo docenas de voces en más de 29 idiomas y la capacidad de clonar voces personalizadas. Los modelos admiten diseño de voz, síntesis de habla y acceso directo a API, con controles avanzados para estilo, emoción, estabilidad y similitud. Adecuado para audiolibros, creación de contenido, accesibilidad y más.

  • Cartesia TTS (Cartesia):
    Cartesia ofrece texto a voz de alta calidad, rápido y seguro con un enfoque en la privacidad y la implementación flexible. Proporciona streaming instantáneo, síntesis en tiempo real y es compatible con múltiples voces y acentos internacionales, accesibles a través de una API sencilla.

  • Google Cloud Text-to-Speech (Google Cloud):
    Google utiliza los modelos DeepMind WaveNet y Neural2 para potenciar voces de alta fidelidad en más de 50 idiomas y variantes. Las características incluyen selección de voz, tono, velocidad de habla, control de volumen, etiquetas SSML y acceso tanto a voces estándar como a voces premium de calidad de estudio. Ampliamente utilizado para accesibilidad, IVR y medios.

  • Microsoft Azure Speech (Microsoft Azure):
    Azure proporciona más de 400 voces neuronales en más de 140 idiomas y configuraciones regionales, con personalización única de voz, estilo, emoción, rol y controles en tiempo real. Ofrece soporte SSML para pronunciación, entonación y más. Ideal para necesidades globales, empresariales o creativas de TTS.

  • PlayHT (PlayHT):
    PlayHT se especializa en síntesis de voz realista, clonación de voz y reproducción instantánea con más de 800 voces en más de 100 idiomas. Las características incluyen controles de emoción, tono y velocidad, audio con múltiples voces y creación de voces personalizadas a través de la API o estudio en línea.

Cómo elegir:
Selecciona tu proveedor y modelo priorizando idiomas, tipos de voces compatibles, formatos deseados (mp3, wav, etc.), granularidad de control (velocidad, emoción, etc.) y características especializadas (clonación de voz, acento, streaming). Para casos de uso creativos, de accesibilidad o de desarrollo, asegúrate de la compatibilidad con los requisitos de tu aplicación y compara costos.

¡Visita el sitio oficial de cada proveedor para obtener información actualizada sobre capacidades, precios y documentación!

Instrucciones de uso

Genera voz de sonido natural a partir de texto utilizando voces de IA de última generación de OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure y PlayHT. Compatible con múltiples voces, idiomas y formatos de audio.

Herramientas

tts_openai

Convierte texto a voz utilizando modelos TTS de OpenAI

Entrada

ParámetroTipoObligatorioDescripción
textstringEl texto a convertir en voz
apiKeystringClave API de OpenAI
modelstringNoModelo TTS a utilizar (tts-1, tts-1-hd, o gpt-4o-mini-tts)
voicestringNoVoz a utilizar (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
responseFormatstringNoFormato de audio (mp3, opus, aac, flac, wav, pcm)
speednumberNoVelocidad del habla (0.25 a 4.0, predeterminado: 1.0)

Salida

ParámetroTipoDescripción
audioUrlstringURL del archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

tts_deepgram

Convertir texto a voz usando Deepgram Aura

Entrada

ParámetroTipoObligatorioDescripción
textstringEl texto a convertir en voz
apiKeystringClave API de Deepgram
modelstringNoModelo/voz de Deepgram (ej., aura-asteria-en, aura-luna-en)
voicestringNoIdentificador de voz (alternativa al parámetro model)
encodingstringNoCodificación de audio (linear16, mp3, opus, aac, flac)
sampleRatenumberNoFrecuencia de muestreo (8000, 16000, 24000, 48000)
bitRatenumberNoTasa de bits para formatos comprimidos
containerstringNoFormato de contenedor (none, wav, ogg)

Salida

ParámetroTipoDescripción
audioUrlstringURL del archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

tts_elevenlabs

Convierte texto a voz usando voces de ElevenLabs

Entrada

ParámetroTipoObligatorioDescripción
textstringEl texto a convertir en voz
voiceIdstringEl ID de la voz a utilizar
apiKeystringClave API de ElevenLabs
modelIdstringNoModelo a utilizar (p. ej., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
stabilitynumberNoEstabilidad de voz (0.0 a 1.0, predeterminado: 0.5)
similarityBoostnumberNoAumento de similitud (0.0 a 1.0, predeterminado: 0.8)
stylenumberNoExageración de estilo (0.0 a 1.0)
useSpeakerBoostbooleanNoUsar potenciador de altavoz (predeterminado: true)

Salida

ParámetroTipoDescripción
audioUrlstringURL al archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

tts_cartesia

Convierte texto a voz usando Cartesia Sonic (latencia ultra baja)

Entrada

ParámetroTipoObligatorioDescripción
textstringEl texto a convertir en voz
apiKeystringClave API de Cartesia
modelIdstringNoID del modelo (sonic-english, sonic-multilingual)
voicestringNoID de voz o embedding
languagestringNoCódigo de idioma (en, es, fr, de, it, pt, etc.)
outputFormatjsonNoConfiguración de formato de salida (container, encoding, sampleRate)
speednumberNoMultiplicador de velocidad
emotionarrayNoEtiquetas de emoción para Sonic-3 (p. ej., ['positivity:high'])

Salida

ParámetroTipoDescripción
audioUrlstringURL al archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

tts_google

Convertir texto a voz utilizando Google Cloud Text-to-Speech

Entrada

ParámetroTipoObligatorioDescripción
textstringEl texto a convertir en voz
apiKeystringClave API de Google Cloud
voiceIdstringNoID de voz (p. ej., en-US-Neural2-A, en-US-Wavenet-D)
languageCodestringCódigo de idioma (p. ej., en-US, es-ES, fr-FR)
genderstringNoGénero de voz (MALE, FEMALE, NEUTRAL)
audioEncodingstringNoCodificación de audio (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumberNoVelocidad de habla (0.25 a 2.0, predeterminado: 1.0)
pitchnumberNoTono de voz (-20.0 a 20.0, predeterminado: 0.0)
volumeGainDbnumberNoGanancia de volumen en dB (-96.0 a 16.0)
sampleRateHertznumberNoFrecuencia de muestreo en Hz
effectsProfileIdarrayNoPerfil de efectos (p. ej., ['headphone-class-device'])

Salida

ParámetroTipoDescripción
audioUrlstringURL al archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

tts_azure

Convertir texto a voz usando Azure Cognitive Services

Entrada

ParámetroTipoRequeridoDescripción
textstringEl texto a convertir en voz
apiKeystringClave de API de Azure Speech Services
voiceIdstringNoID de voz (p. ej., en-US-JennyNeural, en-US-GuyNeural)
regionstringNoRegión de Azure (p. ej., eastus, westus, westeurope)
outputFormatstringNoFormato de audio de salida
ratestringNoVelocidad de habla (p. ej., +10%, -20%, 1.5)
pitchstringNoTono de voz (p. ej., +5Hz, -2st, bajo)
stylestringNoEstilo de habla (p. ej., alegre, triste, enojado - solo voces neurales)
styleDegreenumberNoIntensidad del estilo (0.01 a 2.0)
rolestringNoRol (p. ej., Niña, Niño, MujerJovenAdulta)

Salida

ParámetroTipoDescripción
audioUrlstringURL al archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

tts_playht

Convertir texto a voz usando PlayHT (clonación de voz)

Entrada

ParámetroTipoObligatorioDescripción
textstringEl texto a convertir en voz
apiKeystringClave API de PlayHT (encabezado AUTHORIZATION)
userIdstringID de usuario de PlayHT (encabezado X-USER-ID)
voicestringNoID de voz o URL del manifiesto
qualitystringNoNivel de calidad (draft, standard, premium)
outputFormatstringNoFormato de salida (mp3, wav, ogg, flac, mulaw)
speednumberNoMultiplicador de velocidad (0.5 a 2.0)
temperaturenumberNoCreatividad/aleatoriedad (0.0 a 2.0)
voiceGuidancenumberNoEstabilidad de voz (1.0 a 6.0)
textGuidancenumberNoAdherencia al texto (1.0 a 6.0)
sampleRatenumberNoFrecuencia de muestreo (8000, 16000, 22050, 24000, 44100, 48000)

Salida

ParámetroTipoDescripción
audioUrlstringURL del archivo de audio generado
audioFilefileObjeto de archivo de audio generado
durationnumberDuración del audio en segundos
characterCountnumberNúmero de caracteres procesados
formatstringFormato de audio
providerstringProveedor de TTS utilizado

Notas

  • Categoría: tools
  • Tipo: tts
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started