音声テキスト変換

世界クラスのプロバイダーによる最新のAIモデルを使用して音声をテキストに変換します。SimのSpeech-to-Text（STT）ツールは、音声や動画を正確でタイムスタンプ付き、オプションで翻訳されたトランスクリプトに変換する機能を提供します。多様な言語をサポートし、話者分離や話者識別などの高度な機能で強化されています。

サポートされているプロバイダーとモデル：

OpenAI Whisper (OpenAI):
OpenAIのWhisperは、言語や音声条件全体で堅牢性で知られるオープンソースの深層学習モデルです。whisper-1などの高度なモデルをサポートし、文字起こし、翻訳、高いモデル汎用性を要求するタスクで優れています。ChatGPTや先進的なAI研究で知られる企業OpenAIによって支えられており、Whisperは研究や比較評価のベースラインとして広く使用されています。
Deepgram (Deepgram Inc.):
サンフランシスコを拠点とするDeepgramは、開発者や企業向けにスケーラブルな本番環境グレードの音声認識APIを提供しています。Deepgramのモデルにはnova-3、nova-2、whisper-largeが含まれ、業界をリードする精度、多言語サポート、自動句読点、インテリジェントな話者分離、通話分析、電話から媒体制作まで幅広いユースケース向けの機能を備えたリアルタイムおよびバッチ文字起こしを提供しています。
ElevenLabs (ElevenLabs):
音声AIのリーダーであるElevenLabsは、特にプレミアム音声合成と認識で知られています。そのSTT製品は、多数の言語、方言、アクセントの高精度で自然な理解を提供します。最近のElevenLabs STTモデルは、明瞭さ、話者の区別に最適化されており、創造的なシナリオとアクセシビリティの両方に適しています。ElevenLabsはAI駆動の音声技術における最先端の進歩で認められています。
AssemblyAI (AssemblyAI Inc.):
AssemblyAIは、API駆動の高精度音声認識を提供し、文字起こしに加えて自動チャプタリング、トピック検出、要約、感情分析、コンテンツモデレーションなどの機能を備えています。著名なConformer-2を含む独自のモデルは、業界最大のメディア、コールセンター、コンプライアンスアプリケーションの一部を支えています。AssemblyAIは世界中のフォーチュン500企業や主要AIスタートアップから信頼されています。
Google Cloud Speech-to-Text (Google Cloud):
Googleのエンタープライズグレードのスピーチ・トゥ・テキストAPIは、125以上の言語とバリアントをサポートし、高精度と、リアルタイムストリーミング、単語レベルの信頼度、話者ダイアライゼーション、自動句読点、カスタム語彙、ドメイン固有のチューニングなどの機能を提供しています。latest_long、video、およびドメイン最適化モデルなどが利用可能で、Googleの長年の研究に支えられ、グローバルな拡張性のために展開されています。
AWS Transcribe (Amazon Web Services):
AWS TranscribeはAmazonのクラウドインフラストラクチャを活用して、堅牢な音声認識をAPIとして提供します。複数の言語をサポートし、話者識別、カスタム語彙、チャネル識別（コールセンターオーディオ用）、医療特化型文字起こしなどの機能を備えています。人気のモデルにはstandardやドメイン固有のバリエーションがあります。AWS TranscribeはすでにAmazonのクラウドを使用している組織に最適です。

選び方：
あなたのアプリケーションに合ったプロバイダーとモデルを選択しましょう—高速でエンタープライズ対応の文字起こしと追加分析機能が必要な場合（Deepgram、AssemblyAI、Google、AWS）、高い汎用性とオープンソースアクセスが必要な場合（OpenAI Whisper）、または高度な話者/コンテキスト理解が必要な場合（ElevenLabs）。価格、言語カバレッジ、精度、および必要な特別機能（要約、チャプタリング、感情分析など）を考慮してください。

機能、価格、特徴のハイライト、および微調整オプションの詳細については、上記のリンクから各プロバイダーの公式ドキュメントを参照してください。

パラメータ	型	必須	説明
`provider`	string	はい	STTプロバイダー（whisper）
`apiKey`	string	はい	OpenAI APIキー
`model`	string	いいえ	使用するWhisperモデル（デフォルト：whisper-1）
`audioFile`	file	いいえ	文字起こしする音声またはビデオファイル
`audioFileReference`	file	いいえ	前のブロックからの音声/ビデオファイルの参照
`audioUrl`	string	いいえ	音声またはビデオファイルのURL
`language`	string	いいえ	言語コード（例："en"、"es"、"fr"）または自動検出の場合は"auto"
`timestamps`	string	いいえ	タイムスタンプの粒度：none、sentence、またはword
`translateToEnglish`	boolean	いいえ	音声を英語に翻訳
`prompt`	string	いいえ	モデルのスタイルを導いたり、前の音声セグメントを継続したりするためのオプションテキスト。固有名詞やコンテキストの理解に役立ちます。
`temperature`	number	いいえ	0から1の間のサンプリング温度。値が高いほど出力はよりランダムに、値が低いほどより集中的で決定論的になります。

出力

パラメータ	型	説明
`transcript`	string	文字起こしされた全テキスト
`segments`	array	タイムスタンプ付きセグメント
`language`	string	検出または指定された言語
`duration`	number	音声の長さ（秒）

`stt_deepgram`

Deepgramを使用して音声をテキストに文字起こし

入力

パラメータ	型	必須	説明
`provider`	string	はい	STTプロバイダー（deepgram）
`apiKey`	string	はい	Deepgram APIキー
`model`	string	いいえ	使用するDeepgramモデル（nova-3、nova-2、whisper-largeなど）
`audioFile`	file	いいえ	文字起こしする音声またはビデオファイル
`audioFileReference`	file	いいえ	前のブロックからの音声/ビデオファイルの参照
`audioUrl`	string	いいえ	音声またはビデオファイルのURL
`language`	string	いいえ	言語コード（例："en"、"es"、"fr"）または自動検出の場合は"auto"
`timestamps`	string	いいえ	タイムスタンプの粒度：none、sentence、またはword
`diarization`	boolean	いいえ	話者分離を有効にする

出力

パラメータ	型	説明
`transcript`	string	文字起こしされた全テキスト
`segments`	array	話者ラベル付きのタイムスタンプセグメント
`language`	string	検出または指定された言語
`duration`	number	音声の長さ（秒）
`confidence`	number	全体的な信頼度スコア

`stt_elevenlabs`

ElevenLabsを使用して音声をテキストに文字起こし

入力

パラメータ	型	必須	説明
`provider`	string	はい	STTプロバイダー（elevenlabs）
`apiKey`	string	はい	ElevenLabs APIキー
`model`	string	いいえ	使用するElevenLabsモデル（scribe_v1, scribe_v1_experimental）
`audioFile`	file	いいえ	文字起こしする音声またはビデオファイル
`audioFileReference`	file	いいえ	前のブロックからの音声/ビデオファイルの参照
`audioUrl`	string	いいえ	音声またはビデオファイルのURL
`language`	string	いいえ	言語コード（例："en"、"es"、"fr"）または自動検出の場合は"auto"
`timestamps`	string	いいえ	タイムスタンプの粒度：none、sentence、またはword

出力

パラメータ	型	説明
`transcript`	string	完全な文字起こしテキスト
`segments`	array	タイムスタンプ付きセグメント
`language`	string	検出または指定された言語
`duration`	number	音声の長さ（秒）
`confidence`	number	全体的な信頼度スコア

`stt_assemblyai`

高度なNLP機能を備えたAssemblyAIを使用して音声をテキストに文字起こし

入力

パラメータ	型	必須	説明
`provider`	string	はい	STTプロバイダー（assemblyai）
`apiKey`	string	はい	AssemblyAI APIキー
`model`	string	いいえ	使用するAssemblyAIモデル（デフォルト：best）
`audioFile`	file	いいえ	文字起こしする音声またはビデオファイル
`audioFileReference`	file	いいえ	前のブロックからの音声/ビデオファイルの参照
`audioUrl`	string	いいえ	音声またはビデオファイルのURL
`language`	string	いいえ	言語コード（例："en"、"es"、"fr"）または自動検出の場合は"auto"
`timestamps`	string	いいえ	タイムスタンプの粒度：none、sentence、またはword
`diarization`	boolean	いいえ	話者分離を有効にする
`sentiment`	boolean	いいえ	感情分析を有効にする
`entityDetection`	boolean	いいえ	エンティティ検出を有効にする
`piiRedaction`	boolean	いいえ	PII編集を有効にする
`summarization`	boolean	いいえ	自動要約を有効にする

出力

パラメータ	型	説明
`transcript`	string	完全な文字起こしテキスト
`segments`	array	話者ラベル付きのタイムスタンプセグメント
`language`	string	検出または指定された言語
`duration`	number	音声の長さ（秒）
`confidence`	number	全体的な信頼度スコア
`sentiment`	array	感情分析結果
`entities`	array	検出されたエンティティ
`summary`	string	自動生成された要約

音声テキスト変換

使用方法

ツール

`stt_whisper`

入力

出力

`stt_deepgram`

入力

出力

`stt_elevenlabs`

入力

出力

`stt_assemblyai`

入力

出力

`stt_gemini`

On this page