音声テキスト変換
AIを使用して音声をテキストに変換
世界クラスのプロバイダーによる最新のAIモデルを使用して音声をテキストに変換します。SimのSpeech-to-Text(STT)ツールは、音声や動画を正確でタイムスタンプ付き、オプションで翻訳されたトランスクリプトに変換する機能を提供します。多様な言語をサポートし、話者分離や話者識別などの高度な機能で強化されています。
サポートされているプロバイダーとモデル:
-
OpenAI Whisper (OpenAI):
OpenAIのWhisperは、言語や音声条件全体で堅牢性で知られるオープンソースの深層学習モデルです。whisper-1などの高度なモデルをサポートし、文字起こし、翻訳、高いモデル汎用性を要求するタスクで優れています。ChatGPTや先進的なAI研究で知られる企業OpenAIによって支えられており、Whisperは研究や比較評価のベースラインとして広く使用されています。 -
Deepgram (Deepgram Inc.):
サンフランシスコを拠点とするDeepgramは、開発者や企業向けにスケーラブルな本番環境グレードの音声認識APIを提供しています。Deepgramのモデルにはnova-3、nova-2、whisper-largeが含まれ、業界をリードする精度、多言語サポート、自動句読点、インテリジェントな話者分離、通話分析、電話から媒体制作まで幅広いユースケース向けの機能を備えたリアルタイムおよびバッチ文字起こしを提供しています。 -
ElevenLabs (ElevenLabs):
音声AIのリーダーであるElevenLabsは、特にプレミアム音声合成と認識で知られています。そのSTT製品は、多数の言語、方言、アクセントの高精度で自然な理解を提供します。最近のElevenLabs STTモデルは、明瞭さ、話者の区別に最適化されており、創造的なシナリオとアクセシビリティの両方に適しています。ElevenLabsはAI駆動の音声技術における最先端の進歩で認められています。 -
AssemblyAI (AssemblyAI Inc.):
AssemblyAIは、API駆動の高精度音声認識を提供し、文字起こしに加えて自動チャプタリング、トピック検出、要約、感情分析、コンテンツモデレーションなどの機能を備えています。著名なConformer-2を含む独自のモデルは、業界最大のメディア、コールセンター、コンプライアンスアプリケーションの一部を支えています。AssemblyAIは世界中のフォーチュン500企業や主要AIスタートアップから信頼されています。 -
Google Cloud Speech-to-Text (Google Cloud):
Googleのエンタープライズグレードのスピーチ・トゥ・テキストAPIは、125以上の言語とバリアントをサポートし、高精度と、リアルタイムストリーミング、単語レベルの信頼度、話者ダイアライゼーション、自動句読点、カスタム語彙、ドメイン固有のチューニングなどの機能を提供しています。latest_long、video、およびドメイン最適化モデルなどが利用可能で、Googleの長年の研究に支えられ、グローバルな拡張性のために展開されています。 -
AWS Transcribe (Amazon Web Services):
AWS TranscribeはAmazonのクラウドインフラストラクチャを活用して、堅牢な音声認識をAPIとして提供します。複数の言語をサポートし、話者識別、カスタム語彙、チャネル識別(コールセンターオーディオ用)、医療特化型文字起こしなどの機能を備えています。人気のモデルにはstandardやドメイン固有のバリエーションがあります。AWS TranscribeはすでにAmazonのクラウドを使用している組織に最適です。
選び方:
あなたのアプリケーションに合ったプロバイダーとモデルを選択しましょう—高速でエンタープライズ対応の文字起こしと追加分析機能が必要な場合(Deepgram、AssemblyAI、Google、AWS)、高い汎用性とオープンソースアクセスが必要な場合(OpenAI Whisper)、または高度な話者/コンテキスト理解が必要な場合(ElevenLabs)。価格、言語カバレッジ、精度、および必要な特別機能(要約、チャプタリング、感情分析など)を考慮してください。
機能、価格、特徴のハイライト、および微調整オプションの詳細については、上記のリンクから各プロバイダーの公式ドキュメントを参照してください。
使用方法
主要なAIプロバイダーを使用して、音声およびビデオファイルをテキストに文字起こしします。複数の言語、タイムスタンプ、および話者ダイアライゼーションをサポートしています。
ツール
stt_whisper
OpenAI Whisperを使用して音声をテキストに文字起こし
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
provider | string | はい | STTプロバイダー(whisper) |
apiKey | string | はい | OpenAI APIキー |
model | string | いいえ | 使用するWhisperモデル(デフォルト:whisper-1) |
audioFile | file | いいえ | 文字起こしする音声またはビデオファイル |
audioFileReference | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
audioUrl | string | いいえ | 音声またはビデオファイルのURL |
language | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
timestamps | string | いいえ | タイムスタンプの粒度:none、sentence、またはword |
translateToEnglish | boolean | いいえ | 音声を英語に翻訳 |
prompt | string | いいえ | モデルのスタイルを導いたり、前の音声セグメントを継続したりするためのオプションテキスト。固有名詞やコンテキストの理解に役立ちます。 |
temperature | number | いいえ | 0から1の間のサンプリング温度。値が高いほど出力はよりランダムに、値が低いほどより集中的で決定論的になります。 |
出力
| パラメータ | 型 | 説明 |
|---|---|---|
transcript | string | 文字起こしされた全テキスト |
segments | array | タイムスタンプ付きセグメント |
language | string | 検出または指定された言語 |
duration | number | 音声の長さ(秒) |
stt_deepgram
Deepgramを使用して音声をテキストに文字起こし
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
provider | string | はい | STTプロバイダー(deepgram) |
apiKey | string | はい | Deepgram APIキー |
model | string | いいえ | 使用するDeepgramモデル(nova-3、nova-2、whisper-largeなど) |
audioFile | file | いいえ | 文字起こしする音声またはビデオファイル |
audioFileReference | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
audioUrl | string | いいえ | 音声またはビデオファイルのURL |
language | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
timestamps | string | いいえ | タイムスタンプの粒度:none、sentence、またはword |
diarization | boolean | いいえ | 話者分離を有効にする |
出力
| パラメータ | 型 | 説明 |
|---|---|---|
transcript | string | 文字起こしされた全テキスト |
segments | array | 話者ラベル付きのタイムスタンプセグメント |
language | string | 検出または指定された言語 |
duration | number | 音声の長さ(秒) |
confidence | number | 全体的な信頼度スコア |
stt_elevenlabs
ElevenLabsを使用して音声をテキストに文字起こし
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
provider | string | はい | STTプロバイダー(elevenlabs) |
apiKey | string | はい | ElevenLabs APIキー |
model | string | いいえ | 使用するElevenLabsモデル(scribe_v1, scribe_v1_experimental) |
audioFile | file | いいえ | 文字起こしする音声またはビデオファイル |
audioFileReference | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
audioUrl | string | いいえ | 音声またはビデオファイルのURL |
language | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
timestamps | string | いいえ | タイムスタンプの粒度:none、sentence、またはword |
出力
| パラメータ | 型 | 説明 |
|---|---|---|
transcript | string | 完全な文字起こしテキスト |
segments | array | タイムスタンプ付きセグメント |
language | string | 検出または指定された言語 |
duration | number | 音声の長さ(秒) |
confidence | number | 全体的な信頼度スコア |
stt_assemblyai
高度なNLP機能を備えたAssemblyAIを使用して音声をテキストに文字起こし
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
provider | string | はい | STTプロバイダー(assemblyai) |
apiKey | string | はい | AssemblyAI APIキー |
model | string | いいえ | 使用するAssemblyAIモデル(デフォルト:best) |
audioFile | file | いいえ | 文字起こしする音声またはビデオファイル |
audioFileReference | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
audioUrl | string | いいえ | 音声またはビデオファイルのURL |
language | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
timestamps | string | いいえ | タイムスタンプの粒度:none、sentence、またはword |
diarization | boolean | いいえ | 話者分離を有効にする |
sentiment | boolean | いいえ | 感情分析を有効にする |
entityDetection | boolean | いいえ | エンティティ検出を有効にする |
piiRedaction | boolean | いいえ | PII編集を有効にする |
summarization | boolean | いいえ | 自動要約を有効にする |
出力
| パラメータ | 型 | 説明 |
|---|---|---|
transcript | string | 完全な文字起こしテキスト |
segments | array | 話者ラベル付きのタイムスタンプセグメント |
language | string | 検出または指定された言語 |
duration | number | 音声の長さ(秒) |
confidence | number | 全体的な信頼度スコア |
sentiment | array | 感情分析結果 |
entities | array | 検出されたエンティティ |
summary | string | 自動生成された要約 |
stt_gemini
マルチモーダル機能を持つGoogle Geminiを使用して音声をテキストに変換する
入力
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
provider | string | はい | STTプロバイダー(gemini) |
apiKey | string | はい | Google APIキー |
model | string | いいえ | 使用するGeminiモデル(デフォルト:gemini-2.5-flash) |
audioFile | file | いいえ | 文字起こしする音声またはビデオファイル |
audioFileReference | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
audioUrl | string | いいえ | 音声またはビデオファイルのURL |
language | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
timestamps | string | いいえ | タイムスタンプの粒度:none、sentence、またはword |
出力
| パラメータ | 型 | 説明 |
|---|---|---|
transcript | string | 完全な文字起こしテキスト |
segments | array | タイムスタンプ付きセグメント |
language | string | 検出または指定された言語 |
duration | number | 音声の長さ(秒) |
confidence | number | 全体的な信頼度スコア |
注意事項
- カテゴリー:
tools - タイプ:
stt