使用OpenAI的Whisper模型将语音转换成文本

时间：2023-11-09 12:11:49 来源：51CTO 作者：

译者 | 布加迪

审校 | 重楼

使用OpenAI的Whisper模型将语音转换成文本图1. AI target=_blank class=infotextkey>OpenAI Whisper模型的工作原理图

在这个日益数字化的世界，将语音转换成文本的需求变得越来越重要。无论为了可访问性、内容创建、数据分析还是其他用途，将口语转换成书面语都是一个需要有效解决方案的问题。OpenAI开发的人工智能模型Whisper就能做到这一点：将口语转化成易于理解的文本。

本文将逐步介绍Whisper是什么、它是如何工作的以及如何有效使用它。目前Whisper在AIModels.fyi排名第19位，这款功能强大的工具可以在各种应用中发挥巨大作用。本文还将探讨如何使用AIModels.fyi找到适合您独特需求的类似模型。

Whisper模型简介

由OpenAI开发的AI模型Whisper旨在将音频文件中的语音转换为文本。其应用非常广泛，从生成视频字幕到转录采访或会议文字，不一而足。Whisper的运行次数超过了200万人次，在同类产品中脱颖而出，是一种可靠且受欢迎的模型。

该模型接受音频输入并将其转录成书面文字，有效地弥合了口语和书面语之间的差距。此外，它支持大量语言，因而成为适合多语言项目的出色工具。关于该模型的更多详细信息可以在详情页面上找到。

了解Whisper模型的输入和输出

在深入研究Whisper模型的使用之前，了解模型的输入和输出很重要。

输入

Whisper的主要输入是一个音频文件，它对其进行处理并转录成文本。额外的输入参数允许您定制模型的操作方式：

model string：允许您从不同版本的Whisper模型中选择。
transcription string：允许您选择转录的格式，有纯文本、srt或vtt等选项。
translate boolean：使您能够将文本翻译成英语。
language string：允许您指定音频中所说的语言。
temperature number：该参数控制模型输出的“创造性”。
suppress_tokens string：您不希望模型输出的token id列表。

输出

模型输出含有已转录文本的对象，带有几个字段：

segments：转录内容分成几个片段。
srt_file & txt_file：转录结果可以以这些格式获得。
translation：如果启用了翻译选项，这里提供翻译后的文本。
transcription：这是最终的已转录文本。
detected_language：模型检测到的语言。

我们已了解了模型的输入和输出，不妨看看如何使用它来解决我们的转录问题！

使用Whisper模型将语音转录成文本

无论您是喜欢动手操作的程序员，还是偏爱交互性较强的演示方法，使用Whisper模型都简单又直接。

第1步：身份验证

首先，需要安装Replicate Node.js客户软件，并使用API令牌进行身份验证。这允许您以编程方式与Whisper模型进行交互。

npm install replicate

 export REPLICATE_API_TOKEN=your_api_token_here

第2步：运行模型

完成身份验证后，您可以用音频输入来运行模型：

import Replicate from "replicate";

const replicate = new Replicate({
 auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
 "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 {
 input: {
 audio: "your_audio_here"
 }
 }

您还可以设置预测完成后所调用的Web钩子（webhook），这适用于异步处理：

const prediction = await replicate.predictions.create({
 version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 input: {
 audio: "your_audio_here"
 },
 webhook: "https://example.com/your-webhook",
 webhook_events_filter: ["completed"]
});

更进一步：使用AIMmodels.fyi找到其他音频到文本模型

也许您想将Whisper与其他模型进行比较，或者探究同一问题领域的其他模型。怎样才能找到它们？AIModels.fyi正是满足这个用途的上佳资源，它有一个完全可搜索和可过滤的数据库，列有来自各种平台的AI模型。

第1步：访问AIModels.fyi

进入到AIModels.fyi，开始寻找类似的模型。

第2步：使用搜索栏

使用页面顶部的搜索栏，搜索具有特定关键字的模型，比如“audio-to-text”或“transcription”。这将显示相关模型列表。

第3步：筛选结果

使用搜索栏后，您可以通过使用页面左侧的过滤器进一步缩小结果范围。可以根据各种标准来筛选和搜索模型，包括如下：

平台：托管模型所用的平台，比如OpenAI和Hugging Face等。
创建者：模型背后的创建者或组织。
成本：使用模型的价格范围。
描述：该模型的功能和用途。

第4步：探究模型细节

一旦您找到了一个感兴趣的模型，点击它来查看更多的细节。您能够看到阐述全面的模型特点，包括其输入和输出、性能指标和用例。

结语

无论您是经验丰富的开发人员还是AI领域的新手，OpenAI的Whisper都是一个易于使用且功能强大的工具，可以将语音转换成文本。若结合AIModels.fyi之类的资源，现在比以往任何时候更容易找到适合您独特项目需求的完美模型。立即开始探究起来吧！

原文标题：Converting Speech into Text with OpenAI's Whisper Model，作者：Mike Young

Tags：OpenAI 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　Search: OpenAI 点击:(6)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　Search: OpenAI 点击:(0)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: OpenAI 点击:(5)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: OpenAI 点击:(8)　　评论:(0)　　加入收藏

无需注册！OpenAI宣布放开ChatGPT使用限制

工智能初创公司OpenAI宣布，即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道：“让ChatGPT等工具广泛可用，让人们能够体验到人工智能的好处，这是我们使命的...【详细内容】

2024-04-02　　Search: OpenAI 点击:(6)　　评论:(0)　　加入收藏

开发者再分享 OpenAI Sora 生成的短视频：树叶大象、彩虹瀑布等

IT之家 3 月 19 日消息，OpenAI 今年 2 月推出 Sora 模型之后，迅速成为 AI 圈内头条，能够基于用户的一句话，生成最长 1 分钟的视频，效果接近实拍。OpenAI 目前并未向公众发布 Sora...【详细内容】

2024-03-19　　Search: OpenAI 点击:(12)　　评论:(0)　　加入收藏

奥特曼承认OpenAI名不符实：我们需要大量资金

OpenAI首席执行官萨姆·奥特曼最近在一次网络直播中表示，OpenAI可能不是这家人工智能公司最理想的名字，至少事后看来是这样。他在与莱克斯·弗里德曼的一次播客访...【详细内容】

2024-03-19　　Search: OpenAI 点击:(8)　　评论:(0)　　加入收藏

别等OpenAI了，全球首个类Sora抢先开源！所有训练细节/模型权重全公开，成本仅1万美元

【导读】OpenAI Sora还没用上，国产Sora刚刚正式宣布全面开源！「Open-Sora 1.0」所有的训练细节模型权重全面开源，1万美元64块GPU复现，训练成本直降46%。图片来源：由无界AI生成不...【详细内容】

2024-03-18　　Search: OpenAI 点击:(18)　　评论:(0)　　加入收藏

与OpenAI合作13天后，Figure人形机器人展示与人类对话能力

人形机器人与AI的结合加快了，Figure AI的机器人开始与人类对话。北京时间3月13日深夜，一段人形机器人视频在社交媒体上热传，主角是Figure AI的人形机器人。2月底，Figure AI刚刚...【详细内容】

2024-03-14　　Search: OpenAI 点击:(9)　　评论:(0)　　加入收藏

AI最强大模型易主，OpenAI前景成疑？

GPT-4这次翻车了，Anthropic发布的Claude 3系列模型成功逆袭上位，从性能上实现超越，大模型榜首一夜易主？Claude 3到底靠什么战胜了OpenAI 的GPT-4，快和小夏一起看看，大模型的“新王...【详细内容】

2024-03-07　　Search: OpenAI 点击:(18)　　评论:(0)　　加入收藏

▌简易百科推荐

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(1)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

搜索引擎大变局：向左AI	和“数字人”交朋友，当
AI“复活”成产业链：成	你的自拍和聊天记录，正
手机还装不下AI的梦想	中国修订基础设施等特
金店跑路，存金难兑黄	花10万买的数字藏品成