语音转文字

使用来自世界一流提供商的最新 AI 模型，将语音转录为文本。Sim 的语音转文本 (STT) 工具使您能够将音频和视频转换为准确、带时间戳的转录文本，并可选择翻译支持多种语言，同时提供高级功能，如分角色对话和说话人识别。

支持的提供商和模型：

OpenAI Whisper (OpenAI)：
OpenAI 的 Whisper 是一个开源的深度学习模型，以其在多语言和多音频条件下的强大性能而闻名。它支持高级模型，例如 whisper-1，在转录、翻译以及需要高模型泛化能力的任务中表现出色。Whisper 由以 ChatGPT 和领先 AI 研究闻名的 OpenAI 提供支持，广泛用于研究领域并作为比较评估的基准。
Deepgram (Deepgram Inc.)：
总部位于旧金山的 Deepgram 为开发者和企业提供可扩展的、生产级的语音识别 API。Deepgram 的模型包括 nova-3、nova-2 和 whisper-large，提供实时和批量转录，具有行业领先的准确性、多语言支持、自动标点、智能分角色对话、通话分析以及从电话到媒体制作的多种应用场景功能。
ElevenLabs (ElevenLabs)：
作为语音 AI 的领导者，ElevenLabs 尤其以其高质量的语音合成和识别而闻名。其 STT 产品能够高精度、自然地理解多种语言、方言和口音。最新的 ElevenLabs STT 模型针对清晰度和说话人区分进行了优化，适用于创意和无障碍场景。ElevenLabs 因其在 AI 驱动的语音技术方面的尖端进展而备受认可。
AssemblyAI (AssemblyAI Inc.)：
AssemblyAI 提供基于 API 的高精度语音识别，功能包括自动章节划分、主题检测、摘要生成、情感分析和内容审核等。其专有模型，包括备受赞誉的 Conformer-2，为行业内一些最大的媒体、呼叫中心和合规应用提供支持。AssemblyAI 得到了全球财富 500 强企业和领先 AI 初创公司的信赖。
Google Cloud Speech-to-Text (Google Cloud):
Google 的企业级语音转文字 API 支持超过 125 种语言和变体，提供高精度以及实时流式传输、单词级置信度、说话人分离、自动标点、自定义词汇和领域特定调优等功能。可用的模型包括 latest_long、video 以及领域优化模型，这些模型基于 Google 多年的研究成果，具备全球扩展能力。
AWS Transcribe (Amazon Web Services):
AWS Transcribe 利用 Amazon 的云基础设施，通过 API 提供强大的语音识别功能。它支持多种语言，并提供说话人识别、自定义词汇、通道识别（适用于呼叫中心音频）和医疗特定转录等功能。常用模型包括 standard 以及领域特定变体。AWS Transcribe 非常适合已经使用 Amazon 云服务的组织。

如何选择：
选择适合您应用的提供商和模型——无论您需要快速、企业级的转录和额外分析（Deepgram、AssemblyAI、Google、AWS），高灵活性和开源访问（OpenAI Whisper），还是高级的说话人/上下文理解（ElevenLabs）。请考虑定价、语言覆盖范围、准确性以及您可能需要的任何特殊功能（如摘要、章节划分或情感分析）。

有关功能、定价、功能亮点和微调选项的更多详细信息，请参阅上述链接中的每个提供商的官方文档。

参数	类型	必需	描述
`provider`	string	是	STT 提供商 (whisper)
`apiKey`	string	是	OpenAI API 密钥
`model`	string	否	要使用的 Whisper 模型 (默认值：whisper-1)
`audioFile`	file	否	要转录的音频或视频文件
`audioFileReference`	file	否	来自前面模块的音频/视频文件引用
`audioUrl`	string	否	音频或视频文件的 URL
`language`	string	否	语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
`timestamps`	string	否	时间戳粒度：无、句子或单词
`translateToEnglish`	boolean	否	将音频翻译为英语
`prompt`	string	否	可选文本，用于指导模型的风格或继续前一个音频片段。帮助处理专有名词和上下文。
`temperature`	number	否	采样温度，范围为 0 到 1。较高的值使输出更随机，较低的值使输出更集中和确定性。

输出

参数	类型	描述
`transcript`	string	完整的转录文本
`segments`	array	带时间戳的片段
`language`	string	检测到的或指定的语言
`duration`	number	音频时长（以秒为单位）

`stt_deepgram`

使用 Deepgram 将音频转录为文本

输入

参数	类型	必需	描述
`provider`	string	是	STT 提供商 (deepgram)
`apiKey`	string	是	Deepgram API 密钥
`model`	string	否	要使用的 Deepgram 模型 (nova-3, nova-2, whisper-large 等)
`audioFile`	file	否	要转录的音频或视频文件
`audioFileReference`	file	否	来自前面模块的音频/视频文件引用
`audioUrl`	string	否	音频或视频文件的 URL
`language`	string	否	语言代码 (例如："en", "es", "fr") 或 "auto" 进行自动检测
`timestamps`	string	否	时间戳粒度：无、句子或单词
`diarization`	boolean	否	启用说话人分离

输出

参数	类型	描述
`transcript`	string	完整的转录文本
`segments`	array	带有说话人标签的时间戳片段
`language`	string	检测到的或指定的语言
`duration`	number	音频时长（以秒为单位）
`confidence`	number	总体置信度评分

`stt_elevenlabs`

使用 ElevenLabs 将音频转录为文本

输入

参数	类型	必需	描述
`provider`	string	是	STT 提供商 (elevenlabs)
`apiKey`	string	是	ElevenLabs API 密钥
`model`	string	否	要使用的 ElevenLabs 模型 (scribe_v1, scribe_v1_experimental)
`audioFile`	file	否	要转录的音频或视频文件
`audioFileReference`	file	否	来自前面模块的音频/视频文件引用
`audioUrl`	string	否	音频或视频文件的 URL
`language`	string	否	语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
`timestamps`	string	否	时间戳粒度：无、句子或单词

输出

参数	类型	描述
`transcript`	string	完整的转录文本
`segments`	array	带时间戳的片段
`language`	string	检测到或指定的语言
`duration`	number	音频时长（秒）
`confidence`	number	总体置信度评分

`stt_assemblyai`

使用 AssemblyAI 和高级 NLP 功能将音频转录为文本

输入

参数	类型	必需	描述
`provider`	string	是	STT 提供商 (assemblyai)
`apiKey`	string	是	AssemblyAI API 密钥
`model`	string	否	要使用的 AssemblyAI 模型 (默认：best)
`audioFile`	file	否	要转录的音频或视频文件
`audioFileReference`	file	否	来自前面模块的音频/视频文件引用
`audioUrl`	string	否	音频或视频文件的 URL
`language`	string	否	语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测
`timestamps`	string	否	时间戳粒度：无、句子或单词
`diarization`	boolean	否	启用说话人分离
`sentiment`	boolean	否	启用情感分析
`entityDetection`	boolean	否	启用实体检测
`piiRedaction`	boolean	否	启用 PII 涂黑
`summarization`	boolean	否	启用自动摘要

输出

参数	类型	描述
`transcript`	string	完整的转录文本
`segments`	array	带有说话人标签的时间戳片段
`language`	string	检测到或指定的语言
`duration`	number	音频时长（秒）
`confidence`	number	总体置信度评分
`sentiment`	array	情感分析结果
`entities`	array	检测到的实体
`summary`	string	自动生成的摘要

语音转文字

使用说明

工具

`stt_whisper`

输入

输出

`stt_deepgram`

输入

输出

`stt_elevenlabs`

输入

输出

`stt_assemblyai`

输入

输出

`stt_gemini`

On this page