科大讯飞:语音合成助推有声阅读升级
中国出版传媒商报记者 陈 莹 | 2019-09-23
收藏
摘要: 如今,有声阅读已经成了现代化阅读场景下的强需求,有声书、音频更是出版业数字化转型的重要发展方向,语音识别、语音合成等相关技术的价值日益重要。科大讯飞依靠领先的语音技术可提供完整解决方案,目前,咪咕、QQ阅读、起点、追书、沃阅读、多看等上百个阅读资讯类平台都已接入了科大讯飞的语音合成服务。

传统人工配音方式不仅费时费力,还需要专业主播和剪辑人员,而现在通过语音合成技术,能够便捷实现文字到音频的转化,并且还支持背景音的自动匹配,极大地节省了人力成本和时间,提高效率。“合成配音的最大优势在于它可以7×24小时待命工作,不会有音质效果的浮动变化,并且可保证超高的合成正确率。”尤其是在针对长、难文本的情况下,语音合成能更有效地完成转化、提高有声书制作的效率。但科大讯飞“讯飞智声”产品经理刘烨秋并不讳言,相对于真人阅读,当前的语音合成技术在情感演绎上效果还不够好,需要继续优化算法效果。

目前,科大讯飞已服务中信出版集团等传统出版社、喜马拉雅等音频平台、得到等知识付费平台。刘烨秋介绍说,不同平台对语音服务呈现出迥异的诉求点,主要集中在如下四个方面。

第一类需要定制明星音库:为吸引更多的粉丝、声控等用户流量,客户需要用指定的明星发音人进行音频合成,也就是定制明星音库的需求,例如讯飞合作案例中用罗振宇的声音合成的《显微镜下的大明》。

第二类需要多场景发音人:不同的客户有不同的应用场景,例如小说、散文、科普等,而不同场景下所需发音人的韵律、音色、情感各有不同,客户对适合自己所需风格领域的发音人诉求较为强烈。

第三类需要个性化合成:个性化合成是指C端用户可用家人朋友或者自己的声音来合成音频,一方面满足尝鲜心理,另一方面声音也是一种陪伴,因此许多合作客户为打造产品亮点,在这方面也会有比较强烈的诉求。

第四类需要高效高质的合成效果:相比于真人播报,语音合成的优势之一就是能够有效节约时间、人力和物力成本,因此在保证质量的前提下,客户对语音合成成本的降低、效率的提高都会有比较高的追求。

为此,科大讯飞可以提供三种解决方案。

在线/离线语音合成产品:客户可在讯飞开放平台下载对应的技术开发文档,将语音合成能力集成到自己的工具或产品当中,并根据需要购买或定制指定发音人,使用时只需通过相应的接口调用合成能力即可。

有声制作解决方案:客户只需将所需合成的文本发送过来,讯飞直接将合成好的音频发回给客户。

专业合成工具:目前讯飞提供的专业合成工具主要有两个,一个是更倾向于C端的产品——讯飞配音网站和APP,用户只需输入文本并选择发音人即可实时合成;另一个是面向B端的PC端合成工具,提供输入文本自动输出音频的功能,工具中会集成客户购买或定制的指定发音人。

“大V”加持正是如今有声市场的缩影,围绕作品、IP、作者、主播的全面竞争一触即发,科大讯飞能够为客户提供更高效、高质的语音合成服务及一体化的解决方案。

目前,科大讯飞能够提供更加多样的音库发音人,细化阅读场景,比如小说领域探索适合于玄幻小说、言情小说、悬疑推理小说的音库发音人,能够让有声阅读更加有趣声动。

针对IP、明星主播领域,科大讯飞可实现定制专属明星音库,吸引书粉、声控的用户群体。“借助于科大讯飞的个性化语音合成技术,给有声阅读市场提供更多个性化玩法,用户可以在平台上通过十句话来复刻自己的声音,用自己的声音读书讲故事,更符合现代人求新、个性化的需求。”刘烨秋表示。


所有评论({{total}}
查看更多评论
热点快讯
+86
{{btntext}}
我已阅读并同意《用户注册协议》
+86
{{btntext}}