Sim

音声テキスト変換

AIを使用して音声をテキストに変換

最先端のAIモデルを使用して音声をテキストに変換します。Sim音声テキスト変換(STT)ツールを使用すると、音声ファイルや動画ファイルを正確な文字起こしに変換でき、複数の言語、タイムスタンプ、およびオプションの翻訳をサポートしています。

対応プロバイダー:

  • OpenAI Whisper: OpenAIによる先進的なオープンソースSTTモデル。whisper-1などのモデルをサポートし、様々な言語と音声フォーマットに対応しています。
  • Deepgram: nova-3nova-2whisper-largeなどのディープラーニングモデルを使用したリアルタイムおよびバッチSTT API。話者分離、意図認識、業界特化型チューニングなどの機能を提供します。
  • ElevenLabs: 高品質な音声AIで知られるElevenLabsは、多数の言語や方言に対応した精度と自然言語理解に焦点を当てたSTTモデルを提供しています。

タスクに最適なプロバイダーとモデルを選択してください—高速で本番環境向けの文字起こし(Deepgram)、高精度の多言語対応(Whisper)、または高度な理解と言語カバレッジ(ElevenLabs)など。

使用方法

主要なAIプロバイダーを使用して音声ファイルや動画ファイルをテキストに変換します。複数の言語、タイムスタンプ、および話者分離をサポートしています。

ツール

stt_whisper

OpenAI Whisperを使用して音声をテキストに変換

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(whisper)
apiKeystringはいOpenAI APIキー
modelstringいいえ使用するWhisperモデル(デフォルト:whisper-1)
audioFilefileいいえ文字起こしする音声または動画ファイル
audioFileReferencefileいいえ前のブロックからの音声/動画ファイルへの参照
audioUrlstringいいえ音声または動画ファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword
translateToEnglishbooleanいいえ音声を英語に翻訳

出力

パラメータ説明
transcriptstring完全な文字起こしテキスト
segmentsarrayタイムスタンプ付きセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア

stt_deepgram

Deepgramを使用して音声をテキストに文字起こし

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(deepgram)
apiKeystringはいDeepgram APIキー
modelstringいいえ使用するDeepgramモデル(nova-3、nova-2、whisper-largeなど)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword
diarizationbooleanいいえ話者分離を有効にする

出力

パラメータ説明
transcriptstring完全な文字起こしテキスト
segmentsarray話者ラベル付きのタイムスタンプセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア

stt_elevenlabs

ElevenLabsを使用して音声をテキストに変換する

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(elevenlabs)
apiKeystringはいElevenLabs APIキー
modelstringいいえ使用するElevenLabsモデル(scribe_v1, scribe_v1_experimental)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword

出力

パラメータ説明
transcriptstring完全な文字起こしテキスト
segmentsarrayタイムスタンプ付きセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア

注意事項

  • カテゴリー: tools
  • タイプ: stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started