Sim

文本转语音

使用 AI 语音将文本转换为语音

使用最新的 AI 语音将文本转换为自然的语音。Sim 的文本转语音 (TTS) 工具可以让您从书面文本生成音频,支持数十种语言,并提供多种富有表现力的语音、格式以及高级控制选项,如语速、风格、情感等。

支持的提供商和模型:

  • OpenAI 文本转语音 (OpenAI):
    OpenAI 的 TTS API 使用先进的 AI 模型(如 tts-1tts-1-hdgpt-4o-mini-tts)提供超逼真的语音。语音包括男性和女性选项,如 alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage 和 verse。支持多种音频格式(mp3、opus、aac、flac、wav、pcm),并可调整语速和流式合成。

  • Deepgram Aura (Deepgram Inc.):
    Deepgram 的 Aura 提供富有表现力的英语和多语言 AI 语音,优化了对话清晰度、低延迟和定制化。可用模型包括 aura-asteria-enaura-luna-en 等。支持多种编码格式(linear16、mp3、opus、aac、flac),并可对语速、采样率和风格进行微调。

  • ElevenLabs 文本转语音 (ElevenLabs):
    ElevenLabs 在逼真且情感丰富的 TTS 领域处于领先地位,提供 29+ 种语言的数十种语音,并支持克隆自定义语音。模型支持语音设计、语音合成和直接 API 访问,具有风格、情感、稳定性和相似性等高级控制功能。适用于有声读物、内容创作、无障碍访问等。

  • Cartesia TTS (Cartesia):
    Cartesia 提供高质量、快速且安全的文本转语音,注重隐私和灵活部署。支持即时流媒体、实时合成,并提供多种国际语音和口音,通过简单的 API 即可访问。

  • Google Cloud Text-to-Speech (Google Cloud):
    Google 使用 DeepMind WaveNet 和 Neural2 模型,为 50 多种语言和变体提供高保真语音。功能包括语音选择、音调、语速、音量控制、SSML 标签,以及标准和工作室级高级语音的访问权限。广泛用于无障碍访问、IVR 和媒体。

  • Microsoft Azure Speech (Microsoft Azure):
    Azure 提供超过 400 种神经语音,覆盖 140 多种语言和地区,具有独特的语音定制、风格、情感、角色和实时控制功能。支持 SSML 用于发音、语调等。非常适合全球化、企业或创意的 TTS 需求。

  • PlayHT (PlayHT):
    PlayHT 专注于逼真的语音合成、语音克隆和即时流媒体播放,支持 100 多种语言的 800 多种语音。功能包括情感、音调和速度控制、多语音音频,以及通过 API 或在线工作室创建自定义语音。

如何选择:
根据语言、支持的语音类型、所需格式(mp3、wav 等)、控制粒度(速度、情感等)和特殊功能(语音克隆、口音、流媒体)来优先选择提供商和模型。对于创意、无障碍或开发者使用场景,请确保与您的应用程序需求兼容,并比较成本。

访问每个提供商的官方网站,了解最新功能、定价和文档详情!

使用说明

使用来自 OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure 和 PlayHT 的最先进 AI 语音,从文本生成自然语音。支持多种语音、语言和音频格式。

工具

tts_openai

使用 OpenAI TTS 模型将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringOpenAI API 密钥
modelstring要使用的 TTS 模型 (tts-1, tts-1-hd, 或 gpt-4o-mini-tts)
voicestring要使用的语音 (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
responseFormatstring音频格式 (mp3, opus, aac, flac, wav, pcm)
speednumber语速 (0.25 到 4.0,默认值:1.0)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_deepgram

使用 Deepgram Aura 将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringDeepgram API 密钥
modelstringDeepgram 模型/语音(例如:aura-asteria-en, aura-luna-en)
voicestring语音标识符(模型参数的替代选项)
encodingstring音频编码(linear16, mp3, opus, aac, flac)
sampleRatenumber采样率(8000, 16000, 24000, 48000)
bitRatenumber压缩格式的比特率
containerstring容器格式(none, wav, ogg)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_elevenlabs

使用 ElevenLabs 声音将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
voiceIdstring要使用的声音 ID
apiKeystringElevenLabs API 密钥
modelIdstring使用的模型 (例如,eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
stabilitynumber声音稳定性 (0.0 到 1.0,默认值:0.5)
similarityBoostnumber相似性增强 (0.0 到 1.0,默认值:0.8)
stylenumber风格夸张程度 (0.0 到 1.0)
useSpeakerBoostboolean是否使用扬声器增强 (默认值:true)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_cartesia

使用 Cartesia Sonic (超低延迟)将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringCartesia API 密钥
modelIdstring模型 ID (sonic-english, sonic-multilingual)
voicestring声音 ID 或嵌入
languagestring语言代码 (en, es, fr, de, it, pt 等)
outputFormatjson输出格式配置 (容器, 编码, 采样率)
speednumber速度倍增器
emotionarraySonic-3 的情感标签 (例如,['positivity:high'])

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(以秒为单位)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_google

使用 Google Cloud Text-to-Speech 将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringGoogle Cloud API 密钥
voiceIdstring语音 ID(例如,en-US-Neural2-A, en-US-Wavenet-D)
languageCodestring语言代码(例如,en-US, es-ES, fr-FR)
genderstring语音性别(MALE, FEMALE, NEUTRAL)
audioEncodingstring音频编码(LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumber语速(0.25 到 2.0,默认值:1.0)
pitchnumber语音音调(-20.0 到 20.0,默认值:0.0)
volumeGainDbnumber音量增益(以 dB 为单位,-96.0 到 16.0)
sampleRateHertznumber采样率(以 Hz 为单位)
effectsProfileIdarray效果配置文件(例如,['headphone-class-device'])

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_azure

使用 Azure 认知服务将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringAzure 语音服务 API 密钥
voiceIdstring语音 ID(例如,en-US-JennyNeural, en-US-GuyNeural)
regionstringAzure 区域(例如,eastus, westus, westeurope)
outputFormatstring输出音频格式
ratestring语速(例如,+10%, -20%, 1.5)
pitchstring语音音调(例如,+5Hz, -2st, low)
stylestring语音风格(例如,cheerful, sad, angry - 仅限神经语音)
styleDegreenumber风格强度(0.01 到 2.0)
rolestring角色(例如,Girl, Boy, YoungAdultFemale)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

tts_playht

使用 PlayHT (语音克隆)将文本转换为语音

输入

参数类型必需描述
textstring要转换为语音的文本
apiKeystringPlayHT API 密钥 (AUTHORIZATION header)
userIdstringPlayHT 用户 ID (X-USER-ID header)
voicestring语音 ID 或清单 URL
qualitystring质量级别 (draft, standard, premium)
outputFormatstring输出格式 (mp3, wav, ogg, flac, mulaw)
speednumber速度倍数 (0.5 到 2.0)
temperaturenumber创造性/随机性 (0.0 到 2.0)
voiceGuidancenumber语音稳定性 (1.0 到 6.0)
textGuidancenumber文本贴合度 (1.0 到 6.0)
sampleRatenumber采样率 (8000, 16000, 22050, 24000, 44100, 48000)

输出

参数类型描述
audioUrlstring生成的音频文件的 URL
audioFilefile生成的音频文件对象
durationnumber音频时长(秒)
characterCountnumber处理的字符数
formatstring音频格式
providerstring使用的 TTS 提供商

注意事项

  • 类别:tools
  • 类型:tts
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started