Sim

Synthèse vocale

Convertir du texte en parole en utilisant des voix IA

Convertissez du texte en parole naturelle en utilisant les dernières voix d'IA. Les outils de synthèse vocale (TTS) de Sim vous permettent de générer de l'audio à partir de texte écrit dans des dizaines de langues, avec un choix de voix expressives, de formats et de contrôles avancés comme la vitesse, le style, l'émotion, et plus encore.

Fournisseurs et modèles pris en charge :

  • OpenAI Text-to-Speech (OpenAI) :
    L'API TTS d'OpenAI offre des voix ultra-réalistes utilisant des modèles d'IA avancés comme tts-1, tts-1-hd, et gpt-4o-mini-tts. Les voix incluent des options masculines et féminines, comme alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage et verse. Prend en charge plusieurs formats audio (mp3, opus, aac, flac, wav, pcm), vitesse ajustable et synthèse en streaming.

  • Deepgram Aura (Deepgram Inc.) :
    Aura de Deepgram fournit des voix IA expressives en anglais et multilingues, optimisées pour la clarté conversationnelle, la faible latence et la personnalisation. Des modèles comme aura-asteria-en, aura-luna-en, et d'autres sont disponibles. Prend en charge plusieurs formats d'encodage (linear16, mp3, opus, aac, flac) et permet d'ajuster la vitesse, la fréquence d'échantillonnage et le style.

  • ElevenLabs Text-to-Speech (ElevenLabs) :
    ElevenLabs est leader dans la synthèse vocale réaliste et émotionnellement riche, offrant des dizaines de voix dans plus de 29 langues et la possibilité de cloner des voix personnalisées. Les modèles prennent en charge la conception vocale, la synthèse de parole et l'accès direct à l'API, avec des contrôles avancés pour le style, l'émotion, la stabilité et la similarité. Convient aux livres audio, à la création de contenu, à l'accessibilité et plus encore.

  • Cartesia TTS (Cartesia) :
    Cartesia offre une synthèse vocale de haute qualité, rapide et sécurisée avec un accent sur la confidentialité et le déploiement flexible. Il fournit un streaming instantané, une synthèse en temps réel et prend en charge plusieurs voix et accents internationaux, accessibles via une API simple.

  • Google Cloud Text-to-Speech (Google Cloud) :
    Google utilise les modèles DeepMind WaveNet et Neural2 pour alimenter des voix haute-fidélité dans plus de 50 langues et variantes. Les fonctionnalités comprennent la sélection de voix, la hauteur, la vitesse d'élocution, le contrôle du volume, les balises SSML et l'accès aux voix standard et premium de qualité studio. Largement utilisé pour l'accessibilité, l'IVR et les médias.

  • Microsoft Azure Speech (Microsoft Azure) :
    Azure propose plus de 400 voix neurales dans plus de 140 langues et régions, avec des personnalisations uniques de voix, de style, d'émotion, de rôle et des contrôles en temps réel. Offre la prise en charge SSML pour la prononciation, l'intonation et plus encore. Idéal pour les besoins TTS mondiaux, d'entreprise ou créatifs.

  • PlayHT (PlayHT) :
    PlayHT se spécialise dans la synthèse vocale réaliste, le clonage de voix et la lecture en streaming instantanée avec plus de 800 voix dans plus de 100 langues. Les fonctionnalités incluent le contrôle des émotions, de la hauteur et de la vitesse, l'audio multi-voix et la création de voix personnalisées via l'API ou le studio en ligne.

Comment choisir :
Sélectionnez votre fournisseur et votre modèle en priorisant les langues, les types de voix pris en charge, les formats souhaités (mp3, wav, etc.), la granularité du contrôle (vitesse, émotion, etc.) et les fonctionnalités spécialisées (clonage de voix, accent, streaming). Pour les cas d'utilisation créatifs, d'accessibilité ou de développement, assurez-vous de la compatibilité avec les exigences de votre application et comparez les coûts.

Visitez le site officiel de chaque fournisseur pour obtenir des informations à jour sur les capacités, les tarifs et la documentation !

Instructions d'utilisation

Générez des discours naturels à partir de texte en utilisant des voix IA de pointe d'OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure et PlayHT. Prend en charge plusieurs voix, langues et formats audio.

Outils

tts_openai

Convertir du texte en discours à l'aide des modèles TTS d'OpenAI

Entrée

ParamètreTypeObligatoireDescription
textstringOuiLe texte à convertir en discours
apiKeystringOuiClé API OpenAI
modelstringNonModèle TTS à utiliser (tts-1, tts-1-hd, ou gpt-4o-mini-tts)
voicestringNonVoix à utiliser (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
responseFormatstringNonFormat audio (mp3, opus, aac, flac, wav, pcm)
speednumberNonVitesse d'élocution (0,25 à 4,0, par défaut : 1,0)

Sortie

ParamètreTypeDescription
audioUrlstringURL vers le fichier audio généré
audioFilefileObjet du fichier audio généré
durationnumberDurée de l'audio en secondes
characterCountnumberNombre de caractères traités
formatstringFormat audio
providerstringFournisseur TTS utilisé

tts_deepgram

Convertir du texte en parole en utilisant Deepgram Aura

Entrée

ParamètreTypeObligatoireDescription
textstringOuiLe texte à convertir en parole
apiKeystringOuiClé API Deepgram
modelstringNonModèle/voix Deepgram (ex. : aura-asteria-en, aura-luna-en)
voicestringNonIdentifiant de voix (alternative au paramètre modèle)
encodingstringNonEncodage audio (linear16, mp3, opus, aac, flac)
sampleRatenumberNonTaux d'échantillonnage (8000, 16000, 24000, 48000)
bitRatenumberNonDébit binaire pour les formats compressés
containerstringNonFormat de conteneur (none, wav, ogg)

Sortie

ParamètreTypeDescription
audioUrlstringURL vers le fichier audio généré
audioFilefileObjet du fichier audio généré
durationnumberDurée de l'audio en secondes
characterCountnumberNombre de caractères traités
formatstringFormat audio
providerstringFournisseur TTS utilisé

tts_elevenlabs

Convertir du texte en parole en utilisant les voix ElevenLabs

Entrée

ParamètreTypeObligatoireDescription
textchaîneOuiLe texte à convertir en parole
voiceIdchaîneOuiL'identifiant de la voix à utiliser
apiKeychaîneOuiClé API ElevenLabs
modelIdchaîneNonModèle à utiliser (ex. : eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
stabilitynombreNonStabilité de la voix (0.0 à 1.0, par défaut : 0.5)
similarityBoostnombreNonAmplification de similarité (0.0 à 1.0, par défaut : 0.8)
stylenombreNonExagération du style (0.0 à 1.0)
useSpeakerBoostbooléenNonUtiliser l'amplification du locuteur (par défaut : true)

Sortie

ParamètreTypeDescription
audioUrlchaîneURL vers le fichier audio généré
audioFilefichierObjet du fichier audio généré
durationnombreDurée audio en secondes
characterCountnombreNombre de caractères traités
formatchaîneFormat audio
providerchaîneFournisseur TTS utilisé

tts_cartesia

Convertir du texte en parole en utilisant Cartesia Sonic (latence ultra-faible)

Entrée

ParamètreTypeObligatoireDescription
textchaîneOuiLe texte à convertir en parole
apiKeychaîneOuiClé API Cartesia
modelIdchaîneNonID du modèle (sonic-english, sonic-multilingual)
voicechaîneNonID de voix ou embedding
languagechaîneNonCode de langue (en, es, fr, de, it, pt, etc.)
outputFormatjsonNonConfiguration du format de sortie (container, encoding, sampleRate)
speednombreNonMultiplicateur de vitesse
emotiontableauNonTags d'émotion pour Sonic-3 (ex. : ['positivity:high'])

Sortie

ParamètreTypeDescription
audioUrlstringURL vers le fichier audio généré
audioFilefileObjet du fichier audio généré
durationnumberDurée de l'audio en secondes
characterCountnumberNombre de caractères traités
formatstringFormat audio
providerstringFournisseur TTS utilisé

tts_google

Convertir du texte en parole en utilisant Google Cloud Text-to-Speech

Entrée

ParamètreTypeObligatoireDescription
textstringOuiLe texte à convertir en parole
apiKeystringOuiClé API Google Cloud
voiceIdstringNonID de voix (ex. : en-US-Neural2-A, en-US-Wavenet-D)
languageCodestringOuiCode de langue (ex. : en-US, es-ES, fr-FR)
genderstringNonGenre de voix (MALE, FEMALE, NEUTRAL)
audioEncodingstringNonEncodage audio (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumberNonDébit de parole (0,25 à 2,0, par défaut : 1,0)
pitchnumberNonHauteur de la voix (-20,0 à 20,0, par défaut : 0,0)
volumeGainDbnumberNonGain de volume en dB (-96,0 à 16,0)
sampleRateHertznumberNonTaux d'échantillonnage en Hz
effectsProfileIdarrayNonProfil d'effets (ex. : ['headphone-class-device'])

Sortie

ParamètreTypeDescription
audioUrlstringURL vers le fichier audio généré
audioFilefileObjet du fichier audio généré
durationnumberDurée de l'audio en secondes
characterCountnumberNombre de caractères traités
formatstringFormat audio
providerstringFournisseur TTS utilisé

tts_azure

Convertir du texte en parole en utilisant Azure Cognitive Services

Entrée

ParamètreTypeObligatoireDescription
textstringOuiLe texte à convertir en parole
apiKeystringOuiClé API d'Azure Speech Services
voiceIdstringNonID de voix (ex. : en-US-JennyNeural, en-US-GuyNeural)
regionstringNonRégion Azure (ex. : eastus, westus, westeurope)
outputFormatstringNonFormat audio de sortie
ratestringNonDébit de parole (ex. : +10%, -20%, 1.5)
pitchstringNonHauteur de la voix (ex. : +5Hz, -2st, low)
stylestringNonStyle de parole (ex. : joyeux, triste, en colère - voix neurales uniquement)
styleDegreenumberNonIntensité du style (0.01 à 2.0)
rolestringNonRôle (ex. : fille, garçon, jeune femme adulte)

Sortie

ParamètreTypeDescription
audioUrlstringURL vers le fichier audio généré
audioFilefileObjet du fichier audio généré
durationnumberDurée de l'audio en secondes
characterCountnumberNombre de caractères traités
formatstringFormat audio
providerstringFournisseur TTS utilisé

tts_playht

Convertir du texte en parole avec PlayHT (clonage vocal)

Entrée

ParamètreTypeObligatoireDescription
textchaîneOuiLe texte à convertir en parole
apiKeychaîneOuiClé API PlayHT (en-tête AUTHORIZATION)
userIdchaîneOuiID utilisateur PlayHT (en-tête X-USER-ID)
voicechaîneNonID de voix ou URL du manifeste
qualitychaîneNonNiveau de qualité (draft, standard, premium)
outputFormatchaîneNonFormat de sortie (mp3, wav, ogg, flac, mulaw)
speednombreNonMultiplicateur de vitesse (0,5 à 2,0)
temperaturenombreNonCréativité/aléatoire (0,0 à 2,0)
voiceGuidancenombreNonStabilité de la voix (1,0 à 6,0)
textGuidancenombreNonAdhérence au texte (1,0 à 6,0)
sampleRatenombreNonTaux d'échantillonnage (8000, 16000, 22050, 24000, 44100, 48000)

Sortie

ParamètreTypeDescription
audioUrlchaîneURL vers le fichier audio généré
audioFilefichierObjet du fichier audio généré
durationnombreDurée audio en secondes
characterCountnombreNombre de caractères traités
formatchaîneFormat audio
providerchaîneFournisseur TTS utilisé

Notes

  • Catégorie : tools
  • Type : tts
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started