文本转语音

使用 AI 语音将文本转换为语音

使用最新的 AI 语音将文本转换为自然的语音。Sim 的文本转语音 (TTS) 工具可以让您从书面文本生成音频,支持数十种语言,并提供多种富有表现力的语音、格式以及高级控制选项,如语速、风格、情感等。

支持的提供商和模型:

  • OpenAI 文本转语音 (OpenAI):
    OpenAI 的 TTS API 使用先进的 AI 模型(如 tts-1tts-1-hdgpt-4o-mini-tts)提供超逼真的语音。语音包括男性和女性选项,如 alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage 和 verse。支持多种音频格式(mp3、opus、aac、flac、wav、pcm),并可调整语速和流式合成。

  • Deepgram Aura (Deepgram Inc.):
    Deepgram 的 Aura 提供富有表现力的英语和多语言 AI 语音,优化了对话清晰度、低延迟和定制化。可用模型包括 aura-asteria-enaura-luna-en 等。支持多种编码格式(linear16、mp3、opus、aac、flac),并可对语速、采样率和风格进行微调。

  • ElevenLabs 文本转语音 (ElevenLabs):
    ElevenLabs 在逼真且情感丰富的 TTS 领域处于领先地位,提供 29+ 种语言的数十种语音,并支持克隆自定义语音。模型支持语音设计、语音合成和直接 API 访问,具有风格、情感、稳定性和相似性等高级控制功能。适用于有声读物、内容创作、无障碍访问等。

  • Cartesia TTS (Cartesia):
    Cartesia 提供高质量、快速且安全的文本转语音,注重隐私和灵活部署。支持即时流媒体、实时合成,并提供多种国际语音和口音,通过简单的 API 即可访问。

  • Google Cloud Text-to-Speech (Google Cloud):
    Google 使用 DeepMind WaveNet 和 Neural2 模型,为 50 多种语言和变体提供高保真语音。功能包括语音选择、音调、语速、音量控制、SSML 标签,以及标准和工作室级高级语音的访问权限。广泛用于无障碍访问、IVR 和媒体。

  • Microsoft Azure Speech (Microsoft Azure):
    Azure 提供超过 400 种神经语音,覆盖 140 多种语言和地区,具有独特的语音定制、风格、情感、角色和实时控制功能。支持 SSML 用于发音、语调等。非常适合全球化、企业或创意的 TTS 需求。

  • PlayHT (PlayHT):
    PlayHT 专注于逼真的语音合成、语音克隆和即时流媒体播放,支持 100 多种语言的 800 多种语音。功能包括情感、音调和速度控制、多语音音频,以及通过 API 或在线工作室创建自定义语音。

如何选择:
根据语言、支持的语音类型、所需格式(mp3、wav 等)、控制粒度(速度、情感等)和特殊功能(语音克隆、口音、流媒体)来优先选择提供商和模型。对于创意、无障碍或开发者使用场景,请确保与您的应用程序需求兼容,并比较成本。

访问每个提供商的官方网站,了解最新功能、定价和文档详情!

使用说明

使用来自 OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure 和 PlayHT 的最先进 AI 语音,从文本生成自然语音。支持多种语音、语言和音频格式。

工具

tts_openai

使用 OpenAI TTS 模型将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringOpenAI API 密钥
modelstring要使用的 TTS 模型 (tts-1, tts-1-hd, 或 gpt-4o-mini-tts)
voicestring要使用的语音 (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
responseFormatstring音频格式 (mp3, opus, aac, flac, wav, pcm)
speednumber语速 (0.25 到 4.0,默认值:1.0)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_deepgram

使用 Deepgram Aura 将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringDeepgram API 密钥
modelstringDeepgram 模型/语音(例如:aura-asteria-en, aura-luna-en)
voicestring语音标识符(模型参数的替代选项)
encodingstring音频编码(linear16, mp3, opus, aac, flac)
sampleRatenumber采样率(8000, 16000, 24000, 48000)
bitRatenumber压缩格式的比特率
containerstring容器格式(none, wav, ogg)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_elevenlabs

使用 ElevenLabs 声音将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
voiceIdstring要使用的声音 ID
apiKeystringElevenLabs API 密钥
modelIdstring使用的模型 (例如,eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
stabilitynumber声音稳定性 (0.0 到 1.0,默认值:0.5)
similarityBoostnumber相似性增强 (0.0 到 1.0,默认值:0.8)
stylenumber风格夸张程度 (0.0 到 1.0)
useSpeakerBoostboolean是否使用扬声器增强 (默认值:true)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_cartesia

使用 Cartesia Sonic (超低延迟)将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringCartesia API 密钥
modelIdstring模型 ID (sonic-english, sonic-multilingual)
voicestring声音 ID 或嵌入
languagestring语言代码 (en, es, fr, de, it, pt 等)
outputFormatjson输出格式配置 (容器, 编码, 采样率)
speednumber速度倍增器
emotionarraySonic-3 的情感标签 (例如,['positivity:high'])

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(以秒为单位)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_google

使用 Google Cloud Text-to-Speech 将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringGoogle Cloud API 密钥
voiceIdstring语音 ID(例如,en-US-Neural2-A, en-US-Wavenet-D)
languageCodestring语言代码(例如,en-US, es-ES, fr-FR)
genderstring语音性别(MALE, FEMALE, NEUTRAL)
audioEncodingstring音频编码(LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumber语速(0.25 到 2.0,默认值:1.0)
pitchnumber语音音调(-20.0 到 20.0,默认值:0.0)
volumeGainDbnumber音量增益(以 dB 为单位,-96.0 到 16.0)
sampleRateHertznumber采样率(以 Hz 为单位)
effectsProfileIdarray效果配置文件(例如,['headphone-class-device'])

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_azure

使用 Azure 认知服务将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringAzure 语音服务 API 密钥
voiceIdstring语音 ID(例如,en-US-JennyNeural, en-US-GuyNeural)
regionstringAzure 区域(例如,eastus, westus, westeurope)
outputFormatstring输出音频格式
ratestring语速(例如,+10%, -20%, 1.5)
pitchstring语音音调(例如,+5Hz, -2st, low)
stylestring语音风格(例如,cheerful, sad, angry - 仅限神经语音)
styleDegreenumber风格强度(0.01 到 2.0)
rolestring角色(例如,Girl, Boy, YoungAdultFemale)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_playht

使用 PlayHT (语音克隆)将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringPlayHT API 密钥 (AUTHORIZATION header)
userIdstringPlayHT 用户 ID (X-USER-ID header)
voicestring语音 ID 或清单 URL
qualitystring质量级别 (draft, standard, premium)
outputFormatstring输出格式 (mp3, wav, ogg, flac, mulaw)
speednumber速度倍数 (0.5 到 2.0)
temperaturenumber创造性/随机性 (0.0 到 2.0)
voiceGuidancenumber语音稳定性 (1.0 到 6.0)
textGuidancenumber文本贴合度 (1.0 到 6.0)
sampleRatenumber采样率 (8000, 16000, 22050, 24000, 44100, 48000)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started