Sim

Text-zu-Sprache

Text mit KI-Stimmen in Sprache umwandeln

Wandeln Sie Text in natürlich klingende Sprache mit den neuesten KI-Stimmen um. Die Text-zu-Sprache (TTS)-Tools von Sim ermöglichen es Ihnen, Audio aus geschriebenem Text in Dutzenden von Sprachen zu generieren, mit einer Auswahl an ausdrucksstarken Stimmen, Formaten und erweiterten Steuerungsmöglichkeiten wie Geschwindigkeit, Stil, Emotion und mehr.

Unterstützte Anbieter & Modelle:

  • OpenAI Text-to-Speech (OpenAI):
    OpenAIs TTS-API bietet ultra-realistische Stimmen mit fortschrittlichen KI-Modellen wie tts-1, tts-1-hd und gpt-4o-mini-tts. Die Stimmen umfassen sowohl männliche als auch weibliche Optionen wie alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage und verse. Unterstützt werden verschiedene Audioformate (mp3, opus, aac, flac, wav, pcm), einstellbare Geschwindigkeit und Streaming-Synthese.

  • Deepgram Aura (Deepgram Inc.):
    Deepgrams Aura bietet ausdrucksstarke englische und mehrsprachige KI-Stimmen, optimiert für Gesprächsklarheit, geringe Latenz und Anpassungsfähigkeit. Modelle wie aura-asteria-en, aura-luna-en und andere stehen zur Verfügung. Unterstützt werden verschiedene Kodierungsformate (linear16, mp3, opus, aac, flac) und Feinabstimmung bei Geschwindigkeit, Abtastrate und Stil.

  • ElevenLabs Text-to-Speech (ElevenLabs):
    ElevenLabs führt im Bereich lebensechter, emotional reicher TTS und bietet Dutzende von Stimmen in über 29 Sprachen sowie die Möglichkeit, benutzerdefinierte Stimmen zu klonen. Die Modelle unterstützen Stimmdesign, Sprachsynthese und direkten API-Zugriff mit erweiterten Steuerungsmöglichkeiten für Stil, Emotion, Stabilität und Ähnlichkeit. Geeignet für Hörbücher, Content-Erstellung, Barrierefreiheit und mehr.

  • Cartesia TTS (Cartesia):
    Cartesia bietet hochwertige, schnelle und sichere Text-zu-Sprache-Umwandlung mit Fokus auf Datenschutz und flexibler Bereitstellung. Es ermöglicht sofortiges Streaming, Echtzeit-Synthese und unterstützt mehrere internationale Stimmen und Akzente, zugänglich über eine einfache API.

  • Google Cloud Text-to-Speech (Google Cloud):
    Google nutzt DeepMind WaveNet und Neural2-Modelle für hochwertige Stimmen in über 50 Sprachen und Varianten. Zu den Funktionen gehören Stimmauswahl, Tonhöhe, Sprechgeschwindigkeit, Lautstärkeregelung, SSML-Tags und Zugriff auf Standard- und Premium-Stimmen in Studioqualität. Wird häufig für Barrierefreiheit, IVR und Medien verwendet.

  • Microsoft Azure Speech (Microsoft Azure):
    Azure bietet über 400 neuronale Stimmen in mehr als 140 Sprachen und Regionen mit einzigartiger Stimmanpassung, Stil, Emotion, Rolle und Echtzeit-Steuerung. Unterstützt SSML für Aussprache, Intonation und mehr. Ideal für globale, Unternehmens- oder kreative TTS-Anforderungen.

  • PlayHT (PlayHT):
    PlayHT spezialisiert sich auf realistische Sprachsynthese, Stimmklonen und sofortige Streaming-Wiedergabe mit über 800 Stimmen in mehr als 100 Sprachen. Zu den Funktionen gehören Emotions-, Tonhöhen- und Geschwindigkeitssteuerung, Mehrfachstimmen-Audio und benutzerdefinierte Stimmerstellung über die API oder das Online-Studio.

Auswahlkriterien:
Wählen Sie Ihren Anbieter und das Modell, indem Sie Sprachen, unterstützte Stimmtypen, gewünschte Formate (mp3, wav usw.), Steuerungsgranularität (Geschwindigkeit, Emotion usw.) und spezielle Funktionen (Stimmklonen, Akzent, Streaming) priorisieren. Stellen Sie für kreative, Barrierefreiheits- oder Entwickleranwendungsfälle die Kompatibilität mit den Anforderungen Ihrer Anwendung sicher und vergleichen Sie die Kosten.

Besuchen Sie die offizielle Website jedes Anbieters für aktuelle Informationen zu Funktionen, Preisen und Dokumentation!

Nutzungsanleitung

Erzeugen Sie natürlich klingende Sprache aus Text mit modernsten KI-Stimmen von OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure und PlayHT. Unterstützt mehrere Stimmen, Sprachen und Audioformate.

Tools

tts_openai

Text in Sprache umwandeln mit OpenAI TTS-Modellen

Eingabe

ParameterTypErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
apiKeystringJaOpenAI API-Schlüssel
modelstringNeinZu verwendendes TTS-Modell (tts-1, tts-1-hd oder gpt-4o-mini-tts)
voicestringNeinZu verwendende Stimme (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
responseFormatstringNeinAudioformat (mp3, opus, aac, flac, wav, pcm)
speednumberNeinSprechgeschwindigkeit (0,25 bis 4,0, Standard: 1,0)

Output

ParameterTypBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

tts_deepgram

Text in Sprache umwandeln mit Deepgram Aura

Input

ParameterTypErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
apiKeystringJaDeepgram API-Schlüssel
modelstringNeinDeepgram Modell/Stimme (z.B. aura-asteria-en, aura-luna-en)
voicestringNeinStimmenkennung (Alternative zum Modellparameter)
encodingstringNeinAudiokodierung (linear16, mp3, opus, aac, flac)
sampleRatenumberNeinAbtastrate (8000, 16000, 24000, 48000)
bitRatenumberNeinBitrate für komprimierte Formate
containerstringNeinContainer-Format (none, wav, ogg)

Output

ParameterTypBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

tts_elevenlabs

Text in Sprache umwandeln mit ElevenLabs-Stimmen

Eingabe

ParameterTypErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
voiceIdstringJaDie ID der zu verwendenden Stimme
apiKeystringJaElevenLabs API-Schlüssel
modelIdstringNeinZu verwendendes Modell (z.B. eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
stabilitynumberNeinStimmstabilität (0.0 bis 1.0, Standard: 0.5)
similarityBoostnumberNeinÄhnlichkeitsverstärkung (0.0 bis 1.0, Standard: 0.8)
stylenumberNeinStilübertreibung (0.0 bis 1.0)
useSpeakerBoostbooleanNeinSprecherverstärkung verwenden (Standard: true)

Ausgabe

ParameterTypBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

tts_cartesia

Text in Sprache umwandeln mit Cartesia Sonic (extrem geringe Latenz)

Eingabe

ParameterTypErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
apiKeystringJaCartesia API-Schlüssel
modelIdstringNeinModell-ID (sonic-english, sonic-multilingual)
voicestringNeinStimm-ID oder Embedding
languagestringNeinSprachcode (en, es, fr, de, it, pt, usw.)
outputFormatjsonNeinAusgabeformatkonfiguration (Container, Kodierung, Abtastrate)
speednumberNeinGeschwindigkeitsmultiplikator
emotionarrayNeinEmotions-Tags für Sonic-3 (z.B. ['positivity:high'])

Output

ParameterTypeBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

tts_google

Text in Sprache umwandeln mit Google Cloud Text-to-Speech

Input

ParameterTypeErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
apiKeystringJaGoogle Cloud API-Schlüssel
voiceIdstringNeinStimm-ID (z.B. en-US-Neural2-A, en-US-Wavenet-D)
languageCodestringJaSprachcode (z.B. en-US, es-ES, fr-FR)
genderstringNeinStimmgeschlecht (MALE, FEMALE, NEUTRAL)
audioEncodingstringNeinAudiokodierung (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumberNeinSprechgeschwindigkeit (0,25 bis 2,0, Standard: 1,0)
pitchnumberNeinStimmhöhe (-20,0 bis 20,0, Standard: 0,0)
volumeGainDbnumberNeinLautstärkeverstärkung in dB (-96,0 bis 16,0)
sampleRateHertznumberNeinAbtastrate in Hz
effectsProfileIdarrayNeinEffektprofil (z.B. ['headphone-class-device'])

Ausgabe

ParameterTypBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

tts_azure

Text in Sprache umwandeln mit Azure Cognitive Services

Eingabe

ParameterTypErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
apiKeystringJaAzure Speech Services API-Schlüssel
voiceIdstringNeinStimm-ID (z.B. en-US-JennyNeural, en-US-GuyNeural)
regionstringNeinAzure-Region (z.B. eastus, westus, westeurope)
outputFormatstringNeinAusgabe-Audioformat
ratestringNeinSprechgeschwindigkeit (z.B. +10%, -20%, 1.5)
pitchstringNeinStimmhöhe (z.B. +5Hz, -2st, low)
stylestringNeinSprechstil (z.B. cheerful, sad, angry - nur für neurale Stimmen)
styleDegreenumberNeinStilintensität (0.01 bis 2.0)
rolestringNeinRolle (z.B. Girl, Boy, YoungAdultFemale)

Ausgabe

ParameterTypBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

tts_playht

Text in Sprache umwandeln mit PlayHT (Stimmklonen)

Eingabe

ParameterTypErforderlichBeschreibung
textstringJaDer in Sprache umzuwandelnde Text
apiKeystringJaPlayHT API-Schlüssel (AUTHORIZATION-Header)
userIdstringJaPlayHT Benutzer-ID (X-USER-ID-Header)
voicestringNeinStimm-ID oder Manifest-URL
qualitystringNeinQualitätsstufe (draft, standard, premium)
outputFormatstringNeinAusgabeformat (mp3, wav, ogg, flac, mulaw)
speednumberNeinGeschwindigkeitsmultiplikator (0,5 bis 2,0)
temperaturenumberNeinKreativität/Zufälligkeit (0,0 bis 2,0)
voiceGuidancenumberNeinStimmstabilität (1,0 bis 6,0)
textGuidancenumberNeinTexttreue (1,0 bis 6,0)
sampleRatenumberNeinAbtastrate (8000, 16000, 22050, 24000, 44100, 48000)

Ausgabe

ParameterTypBeschreibung
audioUrlstringURL zur generierten Audiodatei
audioFilefileGeneriertes Audiodateiobjekt
durationnumberAudiodauer in Sekunden
characterCountnumberAnzahl der verarbeiteten Zeichen
formatstringAudioformat
providerstringVerwendeter TTS-Anbieter

Notizen

  • Kategorie: tools
  • Typ: tts
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started