Sim

语音转文字

使用 AI 将语音转换为文字

使用领先提供商的最先进 AI 模型,将语音转录为文字。Sim 语音转文字 (STT) 工具可以将音频和视频文件转换为准确的文字记录,支持多种语言、时间戳以及可选的翻译功能。

支持的提供商:

  • OpenAI Whisper:来自 OpenAI 的先进开源 STT 模型。支持 whisper-1 等模型,能够处理多种语言和音频格式。
  • Deepgram:基于深度学习模型的实时和批量 STT API,例如 nova-3nova-2whisper-large。提供诸如说话人分离、意图识别和行业特定调优等功能。
  • ElevenLabs:以高质量语音 AI 闻名,ElevenLabs 提供专注于准确性和自然语言理解的 STT 模型,支持多种语言和方言。

选择最适合您任务的提供商和模型——无论是快速、生产级转录 (Deepgram),高精度多语言能力 (Whisper),还是高级理解和语言覆盖 (ElevenLabs)。

使用说明

使用领先的 AI 提供商将音频和视频文件转录为文字。支持多种语言、时间戳和说话人分离。

工具

stt_whisper

使用 OpenAI Whisper 将音频转录为文字

输入

参数类型必需描述
providerstringSTT 提供商 (whisper)
apiKeystringOpenAI API 密钥
modelstring使用的 Whisper 模型 (默认值:whisper-1)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前一个模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如:"en"、"es"、"fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词
translateToEnglishboolean将音频翻译为英语

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带时间戳的片段
languagestring检测到的或指定的语言
durationnumber音频时长(以秒为单位)
confidencenumber总体置信度评分

stt_deepgram

使用 Deepgram 将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (deepgram)
apiKeystringDeepgram API 密钥
modelstring要使用的 Deepgram 模型 (nova-3, nova-2, whisper-large 等)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如:"en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词
diarizationboolean启用说话人分离

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带有说话人标签的时间戳片段
languagestring检测到的或指定的语言
durationnumber音频时长(以秒为单位)
confidencenumber总体置信度评分

stt_elevenlabs

使用 ElevenLabs 将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (elevenlabs)
apiKeystringElevenLabs API 密钥
modelstring要使用的 ElevenLabs 模型 (scribe_v1, scribe_v1_experimental)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带时间戳的片段
languagestring检测到或指定的语言
durationnumber音频时长(秒)
confidencenumber总体置信度评分

注意

  • 类别: tools
  • 类型: stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started