语音转文字
使用 AI 将语音转换为文字
使用来自世界一流提供商的最新 AI 模型,将语音转录为文本。Sim 的语音转文本 (STT) 工具使您能够将音频和视频转换为准确、带时间戳的转录文本,并可选择翻译支持多种语言,同时提供高级功能,如分角色对话和说话人识别。
支持的提供商和模型:
-
OpenAI Whisper (OpenAI):
OpenAI 的 Whisper 是一个开源的深度学习模型,以其在多语言和多音频条件下的强大性能而闻名。它支持高级模型,例如whisper-1,在转录、翻译以及需要高模型泛化能力的任务中表现出色。Whisper 由以 ChatGPT 和领先 AI 研究闻名的 OpenAI 提供支持,广泛用于研究领域并作为比较评估的基准。 -
Deepgram (Deepgram Inc.):
总部位于旧金山的 Deepgram 为开发者和企业提供可扩展的、生产级的语音识别 API。Deepgram 的模型包括nova-3、nova-2和whisper-large,提供实时和批量转录,具有行业领先的准确性、多语言支持、自动标点、智能分角色对话、通话分析以及从电话到媒体制作的多种应用场景功能。 -
ElevenLabs (ElevenLabs):
作为语音 AI 的领导者,ElevenLabs 尤其以其高质量的语音合成和识别而闻名。其 STT 产品能够高精度、自然地理解多种语言、方言和口音。最新的 ElevenLabs STT 模型针对清晰度和说话人区分进行了优化,适用于创意和无障碍场景。ElevenLabs 因其在 AI 驱动的语音技术方面的尖端进展而备受认可。 -
AssemblyAI (AssemblyAI Inc.):
AssemblyAI 提供基于 API 的高精度语音识别,功能包括自动章节划分、主题检测、摘要生成、情感分析和内容审核等。其专有模型,包括备受赞誉的Conformer-2,为行业内一些最大的媒体、呼叫中心和合规应用提供支持。AssemblyAI 得到了全球财富 500 强企业和领先 AI 初创公司的信赖。 -
Google Cloud Speech-to-Text (Google Cloud):
Google 的企业级语音转文字 API 支持超过 125 种语言和变体,提供高精度以及实时流式传输、单词级置信度、说话人分离、自动标点、自定义词汇和领域特定调优等功能。可用的模型包括latest_long、video以及领域优化模型,这些模型基于 Google 多年的研究成果,具备全球扩展能力。 -
AWS Transcribe (Amazon Web Services):
AWS Transcribe 利用 Amazon 的云基础设施,通过 API 提供强大的语音识别功能。它支持多种语言,并提供说话人识别、自定义词汇、通道识别(适用于呼叫中心音频)和医疗特定转录等功能。常用模型包括standard以及领域特定变体。AWS Transcribe 非常适合已经使用 Amazon 云服务的组织。
如何选择:
选择适合您应用的提供商和模型——无论您需要快速、企业级的转录和额外分析(Deepgram、AssemblyAI、Google、AWS),高灵活性和开源访问(OpenAI Whisper),还是高级的说话人/上下文理解(ElevenLabs)。请考虑定价、语言覆盖范围、准确性以及您可能需要的任何特殊功能(如摘要、章节划分或情感分析)。
有关功能、定价、功能亮点和微调选项的更多详细信息,请参阅上述链接中的每个提供商的官方文档。
使用说明
使用领先的 AI 提供商将音频和视频文件转录为文本。支持多种语言、时间戳和说话人分离。
工具
stt_whisper
使用 OpenAI Whisper 将音频转录为文本
输入
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
provider | string | 是 | STT 提供商 (whisper) |
apiKey | string | 是 | OpenAI API 密钥 |
model | string | 否 | 要使用的 Whisper 模型 (默认值:whisper-1) |
audioFile | file | 否 | 要转录的音频或视频文件 |
audioFileReference | file | 否 | 来自前面模块的音频/视频文件引用 |
audioUrl | string | 否 | 音频或视频文件的 URL |
language | string | 否 | 语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测 |
timestamps | string | 否 | 时间戳粒度:无、句子或单词 |
translateToEnglish | boolean | 否 | 将音频翻译为英语 |
prompt | string | 否 | 可选文本,用于指导模型的风格或继续前一个音频片段。帮助处理专有名词和上下文。 |
temperature | number | 否 | 采样温度,范围为 0 到 1。较高的值使输出更随机,较低的值使输出更集中和确定性。 |
输出
| 参数 | 类型 | 描述 |
|---|---|---|
transcript | string | 完整的转录文本 |
segments | array | 带时间戳的片段 |
language | string | 检测到的或指定的语言 |
duration | number | 音频时长(以秒为单位) |
stt_deepgram
使用 Deepgram 将音频转录为文本
输入
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
provider | string | 是 | STT 提供商 (deepgram) |
apiKey | string | 是 | Deepgram API 密钥 |
model | string | 否 | 要使用的 Deepgram 模型 (nova-3, nova-2, whisper-large 等) |
audioFile | file | 否 | 要转录的音频或视频文件 |
audioFileReference | file | 否 | 来自前面模块的音频/视频文件引用 |
audioUrl | string | 否 | 音频或视频文件的 URL |
language | string | 否 | 语言代码 (例如:"en", "es", "fr") 或 "auto" 进行自动检测 |
timestamps | string | 否 | 时间戳粒度:无、句子或单词 |
diarization | boolean | 否 | 启用说话人分离 |
输出
| 参数 | 类型 | 描述 |
|---|---|---|
transcript | string | 完整的转录文本 |
segments | array | 带有说话人标签的时间戳片段 |
language | string | 检测到的或指定的语言 |
duration | number | 音频时长(以秒为单位) |
confidence | number | 总体置信度评分 |
stt_elevenlabs
使用 ElevenLabs 将音频转录为文本
输入
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
provider | string | 是 | STT 提供商 (elevenlabs) |
apiKey | string | 是 | ElevenLabs API 密钥 |
model | string | 否 | 要使用的 ElevenLabs 模型 (scribe_v1, scribe_v1_experimental) |
audioFile | file | 否 | 要转录的音频或视频文件 |
audioFileReference | file | 否 | 来自前面模块的音频/视频文件引用 |
audioUrl | string | 否 | 音频或视频文件的 URL |
language | string | 否 | 语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测 |
timestamps | string | 否 | 时间戳粒度:无、句子或单词 |
输出
| 参数 | 类型 | 描述 |
|---|---|---|
transcript | string | 完整的转录文本 |
segments | array | 带时间戳的片段 |
language | string | 检测到或指定的语言 |
duration | number | 音频时长(秒) |
confidence | number | 总体置信度评分 |
stt_assemblyai
使用 AssemblyAI 和高级 NLP 功能将音频转录为文本
输入
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
provider | string | 是 | STT 提供商 (assemblyai) |
apiKey | string | 是 | AssemblyAI API 密钥 |
model | string | 否 | 要使用的 AssemblyAI 模型 (默认:best) |
audioFile | file | 否 | 要转录的音频或视频文件 |
audioFileReference | file | 否 | 来自前面模块的音频/视频文件引用 |
audioUrl | string | 否 | 音频或视频文件的 URL |
language | string | 否 | 语言代码 (例如 "en", "es", "fr") 或 "auto" 进行自动检测 |
timestamps | string | 否 | 时间戳粒度:无、句子或单词 |
diarization | boolean | 否 | 启用说话人分离 |
sentiment | boolean | 否 | 启用情感分析 |
entityDetection | boolean | 否 | 启用实体检测 |
piiRedaction | boolean | 否 | 启用 PII 涂黑 |
summarization | boolean | 否 | 启用自动摘要 |
输出
| 参数 | 类型 | 描述 |
|---|---|---|
transcript | string | 完整的转录文本 |
segments | array | 带有说话人标签的时间戳片段 |
language | string | 检测到或指定的语言 |
duration | number | 音频时长(秒) |
confidence | number | 总体置信度评分 |
sentiment | array | 情感分析结果 |
entities | array | 检测到的实体 |
summary | string | 自动生成的摘要 |
stt_gemini
使用具有多模态功能的 Google Gemini 将音频转录为文本
输入
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
provider | string | 是 | STT 提供商 (gemini) |
apiKey | string | 是 | Google API 密钥 |
model | string | 否 | 要使用的 Gemini 模型 (默认值:gemini-2.5-flash) |
audioFile | file | 否 | 要转录的音频或视频文件 |
audioFileReference | file | 否 | 来自前面模块的音频/视频文件引用 |
audioUrl | string | 否 | 音频或视频文件的 URL |
language | string | 否 | 语言代码 (例如:"en", "es", "fr") 或 "auto" 进行自动检测 |
timestamps | string | 否 | 时间戳粒度:无、句子或单词 |
输出
| 参数 | 类型 | 描述 |
|---|---|---|
transcript | string | 完整的转录文本 |
segments | array | 带时间戳的片段 |
language | string | 检测到或指定的语言 |
duration | number | 音频时长(秒) |
confidence | number | 总体置信度评分 |
注意
- 类别:
tools - 类型:
stt