【CNMO新闻】阿里云智能于6月1日发布通义听悟,并面向公众开放公测。阿里云智能CTO周靖人表示,通义听悟是依托通义千问大模型和音视频AI模型的AI助手,可进行实时语音识别,实现对话的实时记录、多语言翻译、发言总结、提取PPT、内容规整等。
据CNMO了解,通义听悟是通义家族第一个面向大众消费者端的应用产品。在多媒体时代,人们每天记录、分享和观看大量的音频视频内容,通义听悟通过前沿的语音AI技术,能够准确地将音频视频内容转写为易读的文字。不仅如此,结合通义千问大语言模型的强大理解能力,通过全文摘要、章节速览、发言总结等功能,使用户能够从不同角度“一目十行”地更高效“阅读”音视频内容。随着大模型能力的飞速进步,通义听悟能为用户提供更多先进的能力,帮助用户梳理和挖掘出音视频内容中的信息价值,并将所有的记录和收集都沉淀为知识资产,随时供用户回顾和利用。
“依托大模型,为每一个人提供全新的音视频体验”,阿里云CTO周靖人介绍,通义听悟瞄准工作生活中日益增长的音频视频内容,帮助用户记录重要会议的要点,捕捉讲座中的精彩知识,整理访谈中的关键信息,为用户提供更深入、更高效的智能服务。
据悉,通义听悟的小程序版后续将在钉钉、阿里云盘、夸克等阿里旗下产品中推出,并与这些产品内部的场景功能及音视频内容融会贯通。同时,通义听悟的AI能力也将进一步服务于阿里巴巴内部各类应用,如广受用户欢迎的“钉钉闪记”背后便集成了有关能力,为钉钉用户提供智能音视频会议、文档速记等产品。