Sim

テキスト読み上げ

AIボイスを使用してテキストを音声に変換

最新のAIボイスを使用してテキストを自然な音声に変換します。SimのText-to-Speech(TTS)ツールは、数十の言語で書かれたテキストから音声を生成でき、表現力豊かな声、フォーマット、速度、スタイル、感情などの高度なコントロールを選択できます。

対応プロバイダーとモデル:

  • OpenAI Text-to-Speech (OpenAI):
    OpenAIのTTS APIは、tts-1tts-1-hdgpt-4o-mini-ttsなどの高度なAIモデルを使用した超リアルな音声を提供します。男性と女性の両方の声があり、alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage、verseなどのオプションがあります。複数の音声フォーマット(mp3、opus、aac、flac、wav、pcm)、調整可能な速度、ストリーミング合成をサポートしています。

  • Deepgram Aura (Deepgram Inc.):
    DeepgramのAuraは、会話の明瞭さ、低遅延、カスタマイズに最適化された、表現力豊かな英語と多言語AIボイスを提供します。aura-asteria-enaura-luna-enなどのモデルが利用可能です。複数のエンコーディング形式(linear16、mp3、opus、aac、flac)と速度、サンプルレート、スタイルの微調整をサポートしています。

  • ElevenLabs Text-to-Speech (ElevenLabs):
    ElevenLabsは、29以上の言語で数十の声を提供し、カスタム音声のクローンを作成する能力を持つ、リアルで感情豊かなTTSをリードしています。モデルは音声デザイン、音声合成、直接APIアクセスをサポートし、スタイル、感情、安定性、類似性の高度なコントロールを備えています。オーディオブック、コンテンツ作成、アクセシビリティなどに適しています。

  • Cartesia TTS (Cartesia):
    Cartesiaは、プライバシーと柔軟な展開に焦点を当てた、高品質で高速かつ安全なテキスト読み上げを提供します。即時ストリーミング、リアルタイム合成を提供し、シンプルなAPIを通じてアクセス可能な複数の国際的な声とアクセントをサポートしています。

  • Google Cloud Text-to-Speech (Google Cloud):
    GoogleはDeepMind WaveNetとNeural2モデルを使用して、50以上の言語とバリアントで高忠実度の音声を提供しています。機能には、音声選択、ピッチ、発話速度、音量調整、SSMLタグ、標準音声とスタジオグレードのプレミアム音声へのアクセスが含まれます。アクセシビリティ、IVR、メディアで広く使用されています。

  • Microsoft Azure Speech (Microsoft Azure):
    Azureは140以上の言語とロケールにわたって400以上のニューラル音声を提供し、独自の音声カスタマイズ、スタイル、感情、役割、リアルタイム制御が可能です。発音、イントネーションなどのSSMLサポートを提供します。グローバル、エンタープライズ、またはクリエイティブなTTSニーズに最適です。

  • PlayHT (PlayHT):
    PlayHTは、100以上の言語で800以上の音声を使用したリアルな音声合成、音声クローニング、インスタントストリーミング再生を専門としています。機能には、感情、ピッチと速度の制御、マルチボイスオーディオ、APIまたはオンラインスタジオを通じたカスタム音声作成が含まれます。

選び方:
言語、サポートされている音声タイプ、希望するフォーマット(mp3、wavなど)、制御の粒度(速度、感情など)、特殊機能(音声クローニング、アクセント、ストリーミング)を優先して、プロバイダーとモデルを選択してください。クリエイティブ、アクセシビリティ、または開発者のユースケースでは、アプリケーションの要件との互換性を確保し、コストを比較してください。

最新の機能、価格、ドキュメントの詳細については、各プロバイダーの公式サイトをご覧ください!

使用方法

OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure、PlayHTの最先端AI音声を使用して、テキストから自然な音声を生成します。複数の音声、言語、オーディオフォーマットをサポートしています。

ツール

tts_openai

OpenAI TTSモデルを使用してテキストを音声に変換

入力

パラメータタイプ必須説明
textstringはい音声に変換するテキスト
apiKeystringはいOpenAI APIキー
modelstringいいえ使用するTTSモデル(tts-1、tts-1-hd、またはgpt-4o-mini-tts)
voicestringいいえ使用する音声(alloy、ash、ballad、cedar、coral、echo、marin、sage、shimmer、verse)
responseFormatstringいいえオーディオフォーマット(mp3、opus、aac、flac、wav、pcm)
speednumberいいえ発話速度(0.25から4.0、デフォルト:1.0)

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

tts_deepgram

Deepgram Auraを使用してテキストを音声に変換する

入力

パラメータ必須説明
textstringはい音声に変換するテキスト
apiKeystringはいDeepgram APIキー
modelstringいいえDeepgramモデル/音声(例:aura-asteria-en、aura-luna-en)
voicestringいいえ音声識別子(modelパラメータの代替)
encodingstringいいえ音声エンコーディング(linear16、mp3、opus、aac、flac)
sampleRatenumberいいえサンプルレート(8000、16000、24000、48000)
bitRatenumberいいえ圧縮フォーマットのビットレート
containerstringいいえコンテナフォーマット(none、wav、ogg)

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

tts_elevenlabs

ElevenLabsの音声を使用してテキストを音声に変換する

入力

パラメータ必須説明
textstringはい音声に変換するテキスト
voiceIdstringはい使用する音声のID
apiKeystringはいElevenLabs APIキー
modelIdstringいいえ使用するモデル(例:eleven_monolingual_v1、eleven_turbo_v2_5、eleven_flash_v2_5)
stabilitynumberいいえ音声の安定性(0.0から1.0、デフォルト:0.5)
similarityBoostnumberいいえ類似性ブースト(0.0から1.0、デフォルト:0.8)
stylenumberいいえスタイル誇張(0.0から1.0)
useSpeakerBoostbooleanいいえスピーカーブーストを使用(デフォルト:true)

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

tts_cartesia

Cartesia Sonic(超低遅延)を使用してテキストを音声に変換する

入力

パラメータ必須説明
textstringはい音声に変換するテキスト
apiKeystringはいCartesia APIキー
modelIdstringいいえモデルID(sonic-english、sonic-multilingual)
voicestringいいえ音声IDまたは埋め込み
languagestringいいえ言語コード(en、es、fr、de、it、ptなど)
outputFormatjsonいいえ出力フォーマット設定(コンテナ、エンコーディング、サンプルレート)
speednumberいいえ速度乗数
emotionarrayいいえSonic-3用の感情タグ(例:['positivity:high'])

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

tts_google

Google Cloud Text-to-Speechを使用してテキストを音声に変換

入力

パラメータ必須説明
textstringはい音声に変換するテキスト
apiKeystringはいGoogle Cloud APIキー
voiceIdstringいいえ音声ID(例:en-US-Neural2-A、en-US-Wavenet-D)
languageCodestringはい言語コード(例:en-US、es-ES、fr-FR)
genderstringいいえ音声の性別(MALE、FEMALE、NEUTRAL)
audioEncodingstringいいえ音声エンコーディング(LINEAR16、MP3、OGG_OPUS、MULAW、ALAW)
speakingRatenumberいいえ発話速度(0.25~2.0、デフォルト:1.0)
pitchnumberいいえ音声のピッチ(-20.0~20.0、デフォルト:0.0)
volumeGainDbnumberいいえ音量ゲイン(dB)(-96.0~16.0)
sampleRateHertznumberいいえサンプルレート(Hz)
effectsProfileIdarrayいいえエフェクトプロファイル(例:['headphone-class-device'])

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

tts_azure

Azure Cognitive Servicesを使用してテキストを音声に変換

入力

パラメータ必須説明
textstringはい音声に変換するテキスト
apiKeystringはいAzure Speech Services APIキー
voiceIdstringいいえ音声ID(例:en-US-JennyNeural、en-US-GuyNeural)
regionstringいいえAzureリージョン(例:eastus、westus、westeurope)
outputFormatstringいいえ出力音声フォーマット
ratestringいいえ話速(例:+10%、-20%、1.5)
pitchstringいいえ音声のピッチ(例:+5Hz、-2st、low)
stylestringいいえ話し方のスタイル(例:cheerful、sad、angry - ニューラル音声のみ)
styleDegreenumberいいえスタイル強度(0.01〜2.0)
rolestringいいえ役割(例:Girl、Boy、YoungAdultFemale)

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

tts_playht

PlayHT(音声クローニング)を使用してテキストを音声に変換

入力

パラメータ必須説明
textstringはい音声に変換するテキスト
apiKeystringはいPlayHT APIキー(AUTHORIZATIONヘッダー)
userIdstringはいPlayHT ユーザーID(X-USER-IDヘッダー)
voicestringいいえ音声IDまたはマニフェストURL
qualitystringいいえ品質レベル(draft、standard、premium)
outputFormatstringいいえ出力形式(mp3、wav、ogg、flac、mulaw)
speednumberいいえ速度倍率(0.5〜2.0)
temperaturenumberいいえ創造性/ランダム性(0.0〜2.0)
voiceGuidancenumberいいえ音声の安定性(1.0〜6.0)
textGuidancenumberいいえテキスト忠実度(1.0〜6.0)
sampleRatenumberいいえサンプルレート(8000、16000、22050、24000、44100、48000)

出力

パラメータ説明
audioUrlstring生成された音声ファイルのURL
audioFilefile生成された音声ファイルオブジェクト
durationnumber音声の長さ(秒)
characterCountnumber処理された文字数
formatstring音声フォーマット
providerstring使用されたTTSプロバイダー

メモ

  • カテゴリー: tools
  • タイプ: tts
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started