Sim

语音转文字

使用 AI 将语音转换为文字

使用来自世界一流提供商的最新 AI 模型,将语音转录为文本。Sim 的语音转文本 (STT) 工具使您能够将音频和视频转换为准确、带时间戳的转录文本,并可选择翻译支持多种语言,同时提供高级功能,如分角色对话和说话人识别。

支持的提供商和模型:

  • OpenAI Whisper (OpenAI):
    OpenAI 的 Whisper 是一个开源的深度学习模型,以其在多语言和多音频条件下的强大性能而闻名。它支持高级模型,例如 whisper-1,在转录、翻译以及需要高模型泛化能力的任务中表现出色。Whisper 由以 ChatGPT 和领先 AI 研究闻名的 OpenAI 提供支持,广泛用于研究领域并作为比较评估的基准。

  • Deepgram (Deepgram Inc.):
    总部位于旧金山的 Deepgram 为开发者和企业提供可扩展的、生产级的语音识别 API。Deepgram 的模型包括 nova-3nova-2whisper-large,提供实时和批量转录,具有行业领先的准确性、多语言支持、自动标点、智能分角色对话、通话分析以及从电话到媒体制作的多种应用场景功能。

  • ElevenLabs (ElevenLabs):
    作为语音 AI 的领导者,ElevenLabs 尤其以其高质量的语音合成和识别而闻名。其 STT 产品能够高精度、自然地理解多种语言、方言和口音。最新的 ElevenLabs STT 模型针对清晰度和说话人区分进行了优化,适用于创意和无障碍场景。ElevenLabs 因其在 AI 驱动的语音技术方面的尖端进展而备受认可。

  • AssemblyAI (AssemblyAI Inc.):
    AssemblyAI 提供基于 API 的高精度语音识别,功能包括自动章节划分、主题检测、摘要生成、情感分析和内容审核等。其专有模型,包括备受赞誉的 Conformer-2,为行业内一些最大的媒体、呼叫中心和合规应用提供支持。AssemblyAI 得到了全球财富 500 强企业和领先 AI 初创公司的信赖。

  • Google Cloud Speech-to-Text (Google Cloud):
    Google 的企业级语音转文字 API 支持超过 125 种语言和变体,提供高精度以及实时流式传输、单词级置信度、说话人分离、自动标点、自定义词汇和领域特定调优等功能。可用的模型包括 latest_longvideo 以及领域优化模型,这些模型基于 Google 多年的研究成果,具备全球扩展能力。

  • AWS Transcribe (Amazon Web Services):
    AWS Transcribe 利用 Amazon 的云基础设施,通过 API 提供强大的语音识别功能。它支持多种语言,并提供说话人识别、自定义词汇、通道识别(适用于呼叫中心音频)和医疗特定转录等功能。常用模型包括 standard 以及领域特定变体。AWS Transcribe 非常适合已经使用 Amazon 云服务的组织。

如何选择:
选择适合您应用的提供商和模型——无论您需要快速、企业级的转录和额外分析(Deepgram、AssemblyAI、Google、AWS),高灵活性和开源访问(OpenAI Whisper),还是高级的说话人/上下文理解(ElevenLabs)。请考虑定价、语言覆盖范围、准确性以及您可能需要的任何特殊功能(如摘要、章节划分或情感分析)。

有关功能、定价、功能亮点和微调选项的更多详细信息,请参阅上述链接中的每个提供商的官方文档。

使用说明

使用领先的 AI 提供商将音频和视频文件转录为文本。支持多种语言、时间戳和说话人分离。

工具

stt_whisper

使用 OpenAI Whisper 将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (whisper)
apiKeystringOpenAI API 密钥
modelstring要使用的 Whisper 模型 (默认值:whisper-1)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词
translateToEnglishboolean将音频翻译为英语
promptstring可选文本,用于指导模型的风格或继续前一个音频片段。帮助处理专有名词和上下文。
temperaturenumber采样温度,范围为 0 到 1。较高的值使输出更随机,较低的值使输出更集中和确定性。

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带时间戳的片段
languagestring检测到的或指定的语言
durationnumber音频时长(以秒为单位)

stt_deepgram

使用 Deepgram 将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (deepgram)
apiKeystringDeepgram API 密钥
modelstring要使用的 Deepgram 模型 (nova-3, nova-2, whisper-large 等)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如:"en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词
diarizationboolean启用说话人分离

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带有说话人标签的时间戳片段
languagestring检测到的或指定的语言
durationnumber音频时长(以秒为单位)
confidencenumber总体置信度评分

stt_elevenlabs

使用 ElevenLabs 将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (elevenlabs)
apiKeystringElevenLabs API 密钥
modelstring要使用的 ElevenLabs 模型 (scribe_v1, scribe_v1_experimental)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带时间戳的片段
languagestring检测到或指定的语言
durationnumber音频时长(秒)
confidencenumber总体置信度评分

stt_assemblyai

使用 AssemblyAI 和高级 NLP 功能将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (assemblyai)
apiKeystringAssemblyAI API 密钥
modelstring要使用的 AssemblyAI 模型 (默认:best)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词
diarizationboolean启用说话人分离
sentimentboolean启用情感分析
entityDetectionboolean启用实体检测
piiRedactionboolean启用 PII 涂黑
summarizationboolean启用自动摘要

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带有说话人标签的时间戳片段
languagestring检测到或指定的语言
durationnumber音频时长(秒)
confidencenumber总体置信度评分
sentimentarray情感分析结果
entitiesarray检测到的实体
summarystring自动生成的摘要

stt_gemini

使用具有多模态功能的 Google Gemini 将音频转录为文本

输入

参数类型必需描述
providerstringSTT 提供商 (gemini)
apiKeystringGoogle API 密钥
modelstring要使用的 Gemini 模型 (默认值:gemini-2.5-flash)
audioFilefile要转录的音频或视频文件
audioFileReferencefile来自前面模块的音频/视频文件引用
audioUrlstring音频或视频文件的 URL
languagestring语言代码 (例如:"en", "es", "fr") 或 "auto" 进行自动检测
timestampsstring时间戳粒度:无、句子或单词

输出

参数类型描述
transcriptstring完整的转录文本
segmentsarray带时间戳的片段
languagestring检测到或指定的语言
durationnumber音频时长(秒)
confidencenumber总体置信度评分

注意

  • 类别:tools
  • 类型:stt
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started