Sim

音声テキスト変換

AIを使用して音声をテキストに変換

世界クラスのプロバイダーによる最新のAIモデルを使用して音声をテキストに変換します。SimのSpeech-to-Text(STT)ツールは、音声や動画を正確でタイムスタンプ付き、オプションで翻訳されたトランスクリプトに変換する機能を提供します。多様な言語をサポートし、話者分離や話者識別などの高度な機能で強化されています。

サポートされているプロバイダーとモデル:

  • OpenAI Whisper (OpenAI):
    OpenAIのWhisperは、言語や音声条件全体で堅牢性で知られるオープンソースの深層学習モデルです。whisper-1などの高度なモデルをサポートし、文字起こし、翻訳、高いモデル汎用性を要求するタスクで優れています。ChatGPTや先進的なAI研究で知られる企業OpenAIによって支えられており、Whisperは研究や比較評価のベースラインとして広く使用されています。

  • Deepgram (Deepgram Inc.):
    サンフランシスコを拠点とするDeepgramは、開発者や企業向けにスケーラブルな本番環境グレードの音声認識APIを提供しています。Deepgramのモデルにはnova-3nova-2whisper-largeが含まれ、業界をリードする精度、多言語サポート、自動句読点、インテリジェントな話者分離、通話分析、電話から媒体制作まで幅広いユースケース向けの機能を備えたリアルタイムおよびバッチ文字起こしを提供しています。

  • ElevenLabs (ElevenLabs):
    音声AIのリーダーであるElevenLabsは、特にプレミアム音声合成と認識で知られています。そのSTT製品は、多数の言語、方言、アクセントの高精度で自然な理解を提供します。最近のElevenLabs STTモデルは、明瞭さ、話者の区別に最適化されており、創造的なシナリオとアクセシビリティの両方に適しています。ElevenLabsはAI駆動の音声技術における最先端の進歩で認められています。

  • AssemblyAI (AssemblyAI Inc.):
    AssemblyAIは、API駆動の高精度音声認識を提供し、文字起こしに加えて自動チャプタリング、トピック検出、要約、感情分析、コンテンツモデレーションなどの機能を備えています。著名なConformer-2を含む独自のモデルは、業界最大のメディア、コールセンター、コンプライアンスアプリケーションの一部を支えています。AssemblyAIは世界中のフォーチュン500企業や主要AIスタートアップから信頼されています。

  • Google Cloud Speech-to-Text (Google Cloud):
    Googleのエンタープライズグレードのスピーチ・トゥ・テキストAPIは、125以上の言語とバリアントをサポートし、高精度と、リアルタイムストリーミング、単語レベルの信頼度、話者ダイアライゼーション、自動句読点、カスタム語彙、ドメイン固有のチューニングなどの機能を提供しています。latest_longvideo、およびドメイン最適化モデルなどが利用可能で、Googleの長年の研究に支えられ、グローバルな拡張性のために展開されています。

  • AWS Transcribe (Amazon Web Services):
    AWS TranscribeはAmazonのクラウドインフラストラクチャを活用して、堅牢な音声認識をAPIとして提供します。複数の言語をサポートし、話者識別、カスタム語彙、チャネル識別(コールセンターオーディオ用)、医療特化型文字起こしなどの機能を備えています。人気のモデルにはstandardやドメイン固有のバリエーションがあります。AWS TranscribeはすでにAmazonのクラウドを使用している組織に最適です。

選び方:
あなたのアプリケーションに合ったプロバイダーとモデルを選択しましょう—高速でエンタープライズ対応の文字起こしと追加分析機能が必要な場合(Deepgram、AssemblyAI、Google、AWS)、高い汎用性とオープンソースアクセスが必要な場合(OpenAI Whisper)、または高度な話者/コンテキスト理解が必要な場合(ElevenLabs)。価格、言語カバレッジ、精度、および必要な特別機能(要約、チャプタリング、感情分析など)を考慮してください。

機能、価格、特徴のハイライト、および微調整オプションの詳細については、上記のリンクから各プロバイダーの公式ドキュメントを参照してください。

使用方法

主要なAIプロバイダーを使用して、音声およびビデオファイルをテキストに文字起こしします。複数の言語、タイムスタンプ、および話者ダイアライゼーションをサポートしています。

ツール

stt_whisper

OpenAI Whisperを使用して音声をテキストに文字起こし

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(whisper)
apiKeystringはいOpenAI APIキー
modelstringいいえ使用するWhisperモデル(デフォルト:whisper-1)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword
translateToEnglishbooleanいいえ音声を英語に翻訳
promptstringいいえモデルのスタイルを導いたり、前の音声セグメントを継続したりするためのオプションテキスト。固有名詞やコンテキストの理解に役立ちます。
temperaturenumberいいえ0から1の間のサンプリング温度。値が高いほど出力はよりランダムに、値が低いほどより集中的で決定論的になります。

出力

パラメータ説明
transcriptstring文字起こしされた全テキスト
segmentsarrayタイムスタンプ付きセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)

stt_deepgram

Deepgramを使用して音声をテキストに文字起こし

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(deepgram)
apiKeystringはいDeepgram APIキー
modelstringいいえ使用するDeepgramモデル(nova-3、nova-2、whisper-largeなど)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword
diarizationbooleanいいえ話者分離を有効にする

出力

パラメータ説明
transcriptstring文字起こしされた全テキスト
segmentsarray話者ラベル付きのタイムスタンプセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア

stt_elevenlabs

ElevenLabsを使用して音声をテキストに文字起こし

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(elevenlabs)
apiKeystringはいElevenLabs APIキー
modelstringいいえ使用するElevenLabsモデル(scribe_v1, scribe_v1_experimental)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword

出力

パラメータ説明
transcriptstring完全な文字起こしテキスト
segmentsarrayタイムスタンプ付きセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア

stt_assemblyai

高度なNLP機能を備えたAssemblyAIを使用して音声をテキストに文字起こし

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(assemblyai)
apiKeystringはいAssemblyAI APIキー
modelstringいいえ使用するAssemblyAIモデル(デフォルト:best)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword
diarizationbooleanいいえ話者分離を有効にする
sentimentbooleanいいえ感情分析を有効にする
entityDetectionbooleanいいえエンティティ検出を有効にする
piiRedactionbooleanいいえPII編集を有効にする
summarizationbooleanいいえ自動要約を有効にする

出力

パラメータ説明
transcriptstring完全な文字起こしテキスト
segmentsarray話者ラベル付きのタイムスタンプセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア
sentimentarray感情分析結果
entitiesarray検出されたエンティティ
summarystring自動生成された要約

stt_gemini

マルチモーダル機能を持つGoogle Geminiを使用して音声をテキストに変換する

入力

パラメータ必須説明
providerstringはいSTTプロバイダー(gemini)
apiKeystringはいGoogle APIキー
modelstringいいえ使用するGeminiモデル(デフォルト:gemini-2.5-flash)
audioFilefileいいえ文字起こしする音声またはビデオファイル
audioFileReferencefileいいえ前のブロックからの音声/ビデオファイルの参照
audioUrlstringいいえ音声またはビデオファイルのURL
languagestringいいえ言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto"
timestampsstringいいえタイムスタンプの粒度:none、sentence、またはword

出力

パラメータ説明
transcriptstring完全な文字起こしテキスト
segmentsarrayタイムスタンプ付きセグメント
languagestring検出または指定された言語
durationnumber音声の長さ(秒)
confidencenumber全体的な信頼度スコア

注意事項

  • カテゴリー: tools
  • タイプ: stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started