您当前的位置:首页 > 电脑百科 > 人工智能

使用GPT和Whisper打造个性化语音助手

时间:2023-06-16 14:16:55  来源:51CTO  作者:

译者 | 朱先忠

简介

本文旨在指导您创建一个简单而强大的语音助手,以满足您的喜好。我们将使用两个强大的工具——Whisper和GPT来实现这一点。你可能已经知道GPT及其功能,但你知道Whisper是什么吗?

其实,Whisper是AI target=_blank class=infotextkey>OpenAI公司开发的一种高级语音识别模型,可提供准确的音频到文本转录。

我们将带您完成示例工程构建的每一步,包括编码说明。最后,您将拥有一款可启动并正常运行的语音助手。

准备工作

打开AI API密钥

如果你已经有了OpenAI API密钥,你可以跳过这一节。

Whisper和GPT API都需要访问OpenAI API密钥。与ChatGPT的订阅需要支持固定费用不同,API密钥是根据您使用服务的数量进行支付的。

价格还算是比较合理的。在撰写本文时,Whisper的价格为0.006美元/分钟,GPT(模型为GPT-3.5-turbo)的价格为0.002/1K代币(代币约为0.75个单词)。

OpenAI的网站(作者自己的图片)

要获取密钥,请首先在OpenAI网站上创建一个帐户。登录后,单击右上角的姓名并选择查看API密钥。单击按钮“创建新密钥(Create new secret key)”后,将显示您的密钥。请确保保存此密钥,因为您将无法再次看到它。

示例工程依赖的第三方库

本小节介绍项目所需的开源代码库。本文示例项目包括使用OpenAI开发的Python/ target=_blank class=infotextkey>Python库执行各种AI任务,以及使用pyttsx3生成语音,使用SoundDevice录制和播放音频,使用numpy和scipy进行数学运算等。和往常一样,在启动新项目时,您应该在安装包之前创建一个新的虚拟环境。

示例工程代码结构

我们的代码将围绕一个类构建,总共占用大约90行代码。在此,假设您对Python类语法知识已经有了基本的理解。整个类结构如下:

其中,Listen方法负责捕获用户的语音输入,并使用Whisper将其转换为文本。Think方法负责将文本发送到GPT,然后由GPT生成自然语言响应。speak方法负责将响应文本转换为可播放的音频。

注意:上图中最右边代表系统中的GPT助理部分(负责给出自然语言响应)。

下面这个过程是可以重复执行的,即用户可以通过发出另一个请求在对话中进行交互。

示例类对应的代码结构(作者自己的图片)

__init__函数

此函数负责初始化历史记录和设置API密钥。

我们需要一个历史记录来跟踪以前的消息。这基本上对应于我们助理的短期记忆,可以让它记住你在谈话中早些时候说的话。

listen函数

listen函数工作流程

这个方法相当于我们助理的耳朵功能。

listen函数允许接收来自用户的输入。此函数负责记录麦克风中的音频并将其转录为文本。

listen函数的具体作用如下:

  • 录制音频时打印出“Listening…”信息。
  • 使用声音设备以44100 Hz的采样率录制3秒的音频(或您想要的任何持续时间)。
  • 将录制的音频保存为临时WAV文件中的NumPy数组。
  • 使用OpenAI API的转录方法将音频发送给Whisper,由Whisper将其转录。
  • 将转录后的文本打印到控制台,以确认转录成功。
  • 以字符串形式返回转录后的文本。

在本例中,助理的监听时长为3秒钟,但您可以根据需要更改时间。

think函数

think函数工作流程

其实,我们系统中助理的大脑是由GPT驱动的。think函数负责接收助理听到的内容,并详细阐述回应内容。

值得注意的是,响应内容不是在您的本地计算机上创建的。文本需要发送到OpenAI的服务器,以便通过API进行处理。然后,响应内容被保存在响应变量中,用户消息和响应都被添加到历史记录中,即助手的短期记忆,负责为GPT模型提供上下文以生成响应。

speak函数

speak函数工作流程

speak函数负责将文本转换为语音,并将其回放给用户。此函数只接受一个参数:text。此参数应该是一个字符串,表示要转换为语音的文本。

当用文本字符串作为参数调用函数时,它会用命令engine=pyttsx3.init()初始化pyttsx3语音引擎。这个对象是引擎用来将文本转换为语音的主要接口。

然后,该函数指示语音引擎使用命令引擎将提供的文本转换为语音。这会将提供的要speak(由引擎读出)的文本排队。命令engine.runAndWait则负责告诉引擎处理排队的命令。

值得注意的是,Pyttsx3是在本地处理所有文本到语音的转换,这在系统的延迟方面是一个显著的优势。

最后的润色

到此,系统中助理部分已经准备好了。接下来,我们只需要创建一个辅助对象,然后开始对话。

对话是一个无限循环,当用户说出包含“Goodbye(再见)”的句子时,对话就结束了。

个性化体验技巧

总体来看,自定义GPT助手是轻而易举的事情!我们构建的代码是极具模块化的,它允许您通过添加各种功能进行自定义。以下是一些帮助您进行定制的参考想法:

  • 给助理一个角色:改变最初的提示,让你的助理扮演你的英语老师、励志演说家或你能想到的任何其他角色!这方面定制,请查看Awesome ChatGPT Prompts了解更多想法。
  • 更改语言:想使用另一种语言吗?没问题!只需将代码中的英语更改为您想要的语言即可。
  • 构建应用程序:您可以轻松地将助手集成到任何应用程序中。
  • 添加个性:通过添加自定义回复或使用不同的语调和语言风格,让你的助手拥有独特的个性。
  • 与其他API集成:将您的助手与其他API进行集成,以提供更高级的功能,如天气预报或新闻更新等。

结论

在本文中,我们解释了如何检索OpenAI API密钥,并提供了用于捕获用户输入、生成响应以及将文本转换为语音以进行播放的listen、think和speak等函数的代码示例。

有了这些知识,您可以开始创建一款适合您自己特定需求的独特语音助手。总之,存在无限的可能性:从创建一个个人助理来帮助完成日常任务,到构建一个语音控制的自动化系统……有关本文示例的所有代码,您可以访问链接的Github存储库。

译者介绍

朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。

原文标题:Creating Your Personalized Voice Assistant with GPT and Whisper,作者:Donato Riccio



Tags:GPT   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08  Search: GPT  点击:(2)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: GPT  点击:(7)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02  Search: GPT  点击:(9)  评论:(0)  加入收藏
无需注册!OpenAI宣布放开ChatGPT使用限制
工智能初创公司OpenAI宣布,即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道:“让ChatGPT等工具广泛可用,让人们能够体验到人工智能的好处,这是我们使命的...【详细内容】
2024-04-02  Search: GPT  点击:(7)  评论:(0)  加入收藏
ChatGPT 突然放开了账户限制,面向所有人开放
大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布:将面向所有人开放,无论你有没有注册账户。从今天开始,访问 Chat.openai.com 将不再要求用户登录,用户将直接进入与 C...【详细内容】
2024-04-02  Search: GPT  点击:(3)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02  Search: GPT  点击:(8)  评论:(0)  加入收藏
把GPT变成算命大师需要几步?
有人说,当代年轻人在上班与上进之间,选择了上香;在求人与求己之间,选择了求佛。现在可以再加上一句,在V大师200和唯物主义之间,选择了人工智能算命。今年1月,OpenAI引领了一场创新...【详细内容】
2024-03-29  Search: GPT  点击:(11)  评论:(0)  加入收藏
GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
财联社3月28日讯(编辑 赵昊)今年1月,OpenAI推出了定制聊天机器人商店“GPTs”,以期为业务增添新的动力。但两个多月后,GPTs的吸引力仍然有限,很难达到公司CEO山姆·奥尔特曼...【详细内容】
2024-03-29  Search: GPT  点击:(19)  评论:(0)  加入收藏
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明!本文重点梳理了长...【详细内容】
2024-03-20  Search: GPT  点击:(8)  评论:(0)  加入收藏
地表最强AI大会上,我看到自己就能训练一个GPT的日子即将到来
北京时间3月19日凌晨四点,英伟达GTC 2024主题演讲如期开幕:这不仅五年以来的第一场线下举办的GTC,也是 2024 年重要的一场 AI 峰会。2024GTC丨英伟达当穿着黑色皮夹克的黄仁勋...【详细内容】
2024-03-19  Search: GPT  点击:(9)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(5)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(2)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条