智浦推出开源文本转语音GLM模型

IT之家 12 月 11 日报道,智浦正式推出 GLM-TTS 工业级语音合成系统,并与 Hugging Face 和 ModelScope 开启重磅模型。目前,GLM-TTS已开源,可在智浦开放平台(bigmodel)、智浦轻言、Z.ai上使用。 IT之家附上GLM-TTS的官方介绍: 只需3秒的音频样本,GLM-TTS就能学习说话者的音色和说话习惯。在普通朗读、情感配音、教育测评、电子书、语音客服等场景下实现自然、流畅、人性化的对话。我们期望人工智能不仅仅是“说话”,而是能够在正确的场景中以情感一致、类似人类的声音说话。为了实现这一能力,GLM-TTS采用了两阶段生成架构,并引入了基于GRPO的强化学习方案进行训练,在“错误率”和“情绪”的公开评估上实现了开源SOTA性能值得一提的是,GLM-TTS仅使用10万小时的训练数据,远低于业界领先的商业模型。同时,GLM-TTS还考虑了训练的成本和效果。要获得开源SOTA超先进的“发音准确性”和“音高恢复”,只需要在计算机上进行4天的预训练即可。优质的LORA和强化学习仅需一天即可在单台计算机上完成训练,远低于行业平均水平。此外,GLM-TTS 以低廉的价格获得业界领先的 MOS(平均意见分数)分数。 典型场景:从演示到制作 GLM-TTS 的目标不是制作一个又一个好听的演示,而是随着时间的推移支持工业音频制作。单词和不寻常的符号相乘纪律场景,解释的语气将是自然和耐心的。电子书和音频内容让不同的角色表达不同的情感风格。在客户服务场景中,语气要分寸、专业,避免夸张的表现感。 1.教育场景在教育和考试考核场景中,GLM-TTS适应多音字、生僻字和数学符号,批量生成教材、题库的标准发音演示音频,为口语考核、训练等任务保持大规模合成的一致性和准确性。听觉放大。示例:课堂演示 适应场景的高中数学教科书演示:微积分 157! /83! + √924 – 58³。难得的古诗词和复调词:君不见自从禹鼎沉水之后,妖魔鬼怪就来了。入侵九州?城门(què)扶秦三代,风烟看晋五代,亦为官(huàn)游人。我不认为双喜黛方船能够承载太多的悲伤。 2.电子书场景在电子书和音频内容场景中,GLM-TTS可以用一个音调完成整本书。朗读时,可以适应小说、纪录片、社科等不同类型的节奏和情绪,为不同的人物设置专属声音,支持自动生成大内容库,推理成本低。示例:快乐的情感文字:今天我在路上看到一只小狗。它看起来和它的主人玩得很开心。它摇尾巴的样子让人的心都融化了!悲伤的情感文字我真的不明白为什么一切都变得如此复杂,为什么我不能回到过去?愤怒的情绪文本为什么你不能说话 h乌曼语? 3. 智能客服 在智能客服和语音助手场景中,GLM-TTS 为机器人客服提供柔和柔和的语音图像。它允许您创建看起来不那么机械的页面,自然地将可变信息插入到调用脚本中而不中断整体节奏,并与上游 NLU/NLG 模块配合以支持从理解到响应的端到端语音交互。示例:Pe 对于给您带来的不便,我们深表歉意!我们将快速响应您可能遇到的任何问题,并会在10分钟内通过我们的专属客服电话【工号】9527与您联系,详细讨论解决方案。你好。我想查询物流进度。目前包裹正在运往北京,预计明天送达。如果您有任何疑问,请随时告诉我~ 强化学习:从“可说”变为“表达” 强化学习(RL)是关键将音频从“可用”移动到“用户友好”的链接。然而,在TTS领域,奖励设计困难、训练不稳定等问题长期存在,行业大部分仍停留在SFT阶段。 GLM-TTS基于GRPO框架,引入多维奖励和稳定的训练机制,以提高模型在可控条件下的表达力和鲁棒性。强化学习采用结合训练和合成数据的数据构建模型,以实现接近零成本的数据生成。通过优化和训练算法的配合,有效避免了奖励黑客攻击,保证了模型性能的可靠性和泛化能力,并且在未见过的测试集上也提供了理想的结果。 1.seed-tts-eval:降低错误率,提高相似度。关于中文Seed-tts-eval测试套件: CER(字符错误率):GLM-TTS的CER为1.03%,处于世界领先水平。开源模式的早期阶段。引入RL后,GLM-TTS_RL的CER下降至0.89%,达到开源SOTA。 Sim(音高相似度):GLM-TTS 的相似度约为 76.1,而 GLM-TTS_RL 则增加到 76.4。考虑到“准确发音”和“音色恢复”,以较低的CER保持较高的音色相似度。 2.CV3-eval-emotion:CV3-eval-emotion 在文本相关数据集上的情感和准确性均属顶级(文本有自己的情感标签):SOTA 情感维度:GLM-TTS – Premium Tone_RL 快乐 (0.72)、悲伤 (0.52) 和愤怒 (0.28) 的所有三种情感均实现 SOTA,平均情感得分 (avg_emo) 为 0.51。目前,其他商业模式大多聚焦于快乐维度,对于悲伤、愤怒等负面情绪的有效效果甚少。考虑到发音准确度,GLM-TTS-Premium Tone CER ≈ 1.33% 和 GLM-TTS-Premium Tone_RL CER ≈ 1.68%,虽然在情感表现上更胜一筹,但GLM-TTS 的 e CER 仍处于较低水平。总体而言,它优于其他商业模式,实现了情感表达和误词率的双重优势。开源体验为了方便开发者、研究人员和企业对GLM-TTS的评估和集成,我们同时开放了模型权重、推理代码和在线调用接口。 1. 开源受 Apache 许可证约束。在各大开源社区同时开源GLM-TTS相关资源(模型权重、推理脚本、示例项目等)。 GitHub:https://github.com/zai-org/GLM-TTSHugging Face:https://huggingface.co/zai-org/GLM-TTS Magic 社区:https://modelscope.cn/models/ZhipuAI/GLM-TTS 开发者可以使用传统的推理框架。将 GLM‑TTS GPU 快速部署到您的环境中,并按需进行二次开发。 2.开放平台和API 如果您想直接访问在线服务,可以调用GLM-TTS功能通过开放平台进行交流。开放平台入口:PI接口文档:该平台支持各种计费和QPS配置,涵盖从演示测试到大规模生产级调用的所有内容。 3.在线体验您还可以通过以下入口立即体验GLM-TTS的合成效果。 audio.z.ai – 通过上传文本或简短的音频提示来生成您自己的声音。纸浦轻言App/网页版:体验多风格朗读、对话语气复制。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。马来西亚也很苦恼啊!筹集73亿给华为中兴通讯打造全国5G网络!网友:直接批评西方网络威胁论

文章已创建 194

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部