本文目录:
- 1、一文看懂语音合成:模拟人类语言,暗藏哪些商机?
- 2、asr语音识别为什么有时不能编程
- 3、荐好用的可以把录音转换成文字的软件有哪些?
- 4、语音识别中的ASR技术通识 2019-12-06
一文看懂语音合成:模拟人类语言,暗藏哪些商机?
语音合成技术给我们带来了很多惊喜,你知道自己每天都在与它们打交道吗?而开车时的导航就是语音合成的一种。虽然目前的”它们”只会相对机械的朗读文章,但可以肯定的是,语音合成技术已经走出实验室,开始商用,其潜在的巨大市场已露出曙光。
我们的身边总是人声鼎沸。
婴儿牙牙学语,男女互诉爱意。在肺部、气管和声带的共同作用下,声音出现,喉内肌肉协调作用下,我们说出能够代表自己想法的字符,再赋予其愤怒或喜悦或悲伤的 情感 ,人类的语音就此形成。
18世纪末,一个因土耳其行棋傀儡的骗局将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦,花费了人生最后20年的时间,试图模拟人类的语音。他做了一个布满孔洞的空箱,空箱连接着一个奇异形状的鼓风机,鼓风机被压动后将使得内置的簧片振动,这一过程模拟了人类的发声,也确实发出了声音,而这也成就了人类最早的语音合成机械之一。
让机器更像人类,是无数科学家的梦想。这样的梦想被多方位的推进,从机器的外形上、内核的思考运算上,以及对外表达的说话上。
如今,电子设备取代了空盒子,算法则比簧片更能够协调发声。在技术发展下,声音的波动被计算机捕捉、计算、指引,最终发出声音。这一项带着前人梦想的技术,不再单单出现在电影和小说里,也承载起了巨大的市场走进千家万户,这就是语音合成。
从Siri开始的热潮,语音合成潜力无限
同时,Siri的热潮也拉开了语音合成技术运用的大门。
2014年微软推出了”小娜”与”小冰”,这是将Siri所拥有的语音识别技术及语音合成技术分开来,小娜负责理解复杂的口语指令并进行执行,而小冰主要能够和人类友好地聊天。
随后,这样的运用逐步增多:2014 年底,亚马逊发布了 Echo 智能音箱,语音助理 Alexa也随之亮相;一年半后,Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。
国内的巨头也不遑多让,京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱,也纷纷进入了国人的家居生活。
Siri的热潮同步开启的,不仅仅是语音合成技术在硬件上的应用,也包括一系列更具想象力的交互场景,带来了巨大的商机。
2015年春节,本就搭载了语音导航的高德地图与郭德纲合作,推出了高德地图欢笑版。用户打开高德地图,不仅能够听到导航播报,还能听到郭德纲的极具特色的段子。这一次尝试,让高德地图一度跃至苹果App Store榜单第2名。
在今年新冠肺炎疫情期间,”宅经济”大行其道,”听书”市场也快速爆发,有声阅读成为新的阅读潮流。
除此以外,短视频中的AI配音,让视频内容者省去大量配音时间;对已故知名艺人的声音采集,实现过去与现在的交互,圆了一代粉丝的梦想……
我们可以看到,语音合成技术的未来拥有巨大的想象空间,根据赛迪智库数据,预计到2021年智能语音市场规模将达195亿元。在这其中,智能语音就由语音识别技术(ASR)和语音合成技术(TTS)共同组成。
而这两项技术也正在被头部企业迅速推进,市场之下,语音合成已经不仅仅代表人类过去的梦想,更是代表着更”大一统”的 科技 格局,毕竟,这一技术改变着人类与机器的交互方式,也将改变未来人类的机器使用习惯,代表着全新的机会与入口。
从过去到现在,语音合成技术一览
1773年,俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦(Christian Kratzenstein)制造了一个特别的设备,通过共鸣管和风琴管的连接,几乎可以完美的发出 a、e、i、o、u 这五个元音。
十多年后,前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后,多位发明家基于这一机器进行改进,都是试图通过物理机模拟人说话发音。
这样的尝试已经令人难以想象,不过,即使这样的物理机发展得登峰造极,也无法模拟出我们说出的每一个音节、无法拥有人说话的音质,也无法停顿、无法带有情绪。
因此,另一种方式出现——拼接系统,让说话人录制语音存入系统,在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声,虽然拼接处的瑕疵难以消除,但是随着如今大数据时代的来临,大语料库的出现,让拼接出的语音逐步真人化,直至如今依然有商业系统在使用。
基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时,对语音的识别不再是识别一个简单的词和短词组,而是基于统计的方法,运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知,最终给到用户最高可能性的连接。在这其中,典型的模型是隐含马尔可夫模型(HMM),用来描述如何在可变长的时序特征序列上打词标签。
2017年3月,行业的引领者Google 提出了一种新的端到端的语音合成系统:Tacotron。端到端语音合成是在参数合成技术上演进而来的,把两段式预测统一成了一个模型预测,即拼音流到语音特征流的直接转换,省去了主观的中间特征标注,克服了误差积累,也大幅度提高了语音合成的质量。
然而,为了实现真正像人一样的发音,语音合成系统必须学会语调、重音、节奏等表达因素,这一问题,Tacotron也并未解决。
谷歌曾共享了两篇新论文试图解决这一问题,第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了”韵律学嵌入”(prosody embedding)的概念。论文中为 Tacotron 增加了一个韵律学编码器,该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。
第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开,并且创新性地提出了一种建模潜在语音”因素”的无监督新方法。这一模型之下,学习的不再是时间对齐的精确的韵律学元素,而是较高层的说话风格模式,并且可以迁移于任意不同的短语之中。
如果论文提到的模型实现,那么我们便可以迫使 Tacotron 使用特定的说话风格,不需要参考语音片段,并能创造出语音长度多样化的不同语句,并带有情绪。
在不远的将来,或许我们就将听到,来自机器的人类声音。
国内:积极商用,进展瞩目
在语音合成的重要研究中,因为国内起步较晚,所以我们很少看到突破性的技术发展。但是,即便停留在艰难的 探索 初期,巨头们之于语音合成仍旧趋之若鹜。
我们也惊喜地看到,不少企业在近期通过语音合成的商用落地,展现出了自己的技术实力。
① 京东数科:AI主播”小妮”上岗
京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀,在2018年就开始组建机器人的团队,研究覆盖生命科学、传感器材料乃至运动力学与人机交互。
在全面的机器人开发体系下,今年5月,京东数科推出了令人瞩目的AI主播”小妮”,这是京东数科自主研发的AI虚拟数字人产品首次亮相。
小妮的真实是全方位的,在听感、表情、头部动作乃至口型上,小妮都极像真人。从文字到语音,小妮通过自研的轻量级对抗语音合成技术进行转化;而小妮特色鲜明的声音及极具真实性的呼吸和停顿,则是来源于在多人数据上结合深度神经网络进行个性化建模……
更为重要的是,小妮的出现打通了语音、图像、视频,在语音生成视频的阶段,她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情,通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。
而除了主播领域以外,AI虚拟数字人还可以用智能客服及招聘领域。在未来,我们可以预见到,AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展,或许也将出现超乎我们想象的AI运用。
② 科大讯飞:为多家企业提供底层技术支持
早在之前,科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年,来自科大讯飞地一款彩色墨水屏阅读器正式面世,一方面,阅读器可以进行常见的新闻播报、语音读书,满足用户的基础要求;另一方面,阅读器结内置了神秘AI主播,可以对话用户、助力用户解决问题。同时,科大讯飞也为多家企业提供底层技术支撑,覆盖智能手机、智能 汽车 等多个领域。
③ 腾讯云:语音累计音色种类达24种
而对于拥有国内最大流量池——微信、QQ的腾讯而言,这家企业则选择为内容创业者提供服务。
今年9月,腾讯云语音合成团队正式开放面向全量用户的合成音频平台,该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用,用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时,腾讯云还发布了全新地11种音色,其中甚至包括粤语这样的方言在内,目前累计音色种类达24种。
④ 百度:百度大脑开放全栈语音引擎能力
作为将AI作为战略进行投入的百度,在语音合成上的推进也不容小觑。
去年,已经开放三年的百度发布了语音引擎。这是一套非常全面的系统,覆盖内容非常广泛,包括硬件模组、开发板以及语音交互场景解决方案等。在这其中,百度也专门围绕语音合成的成功进行了发布,推出了6个在线语音合成精品音库和5个离线语音合成精品音库。
未来语音合成将更接近人类的语言
立足现在,我们不禁畅想,未来的语音合成将是什么样,又将出现在哪些地方?
在技术上,毫无疑问,未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成:文本分析、韵律生成和合成语音,而在这三方面,行业的发展都还有待提高。
在这其中,韵律生成是行业面临的共同问题,如何可以让语音合成更像人类?更具表达力?作为声学模型,还有大量个性化、 情感 化的变化因素需要学习。而值得一提的是,语音合成技术的复杂度也需要降低,从而实现更广度地运用。我们也相信,随着大量语料的有效使用,这一切问题也都将解决,未来,语音合成必将更加”传神”。
而随之而来的,我们的生活也将被改变。
一方面,在 科技 带来革新的同时,传统也将受到冲击。在上文中,小妮被运用与客服以及招聘的部分环节,那么很明显,在不远的未来,具有重复性的语音性质的工作将受到巨大影响。
而另一方面,更为智能的未来也将到来,在将来,人与机器的交互方式或许将被彻底改变,到那时,全新的商业机会也将藏于其中。
为了迎接这一时代,巨头趋之若鹜,而普通人也同样该砥砺前行。
智能语音语音合成
asr语音识别为什么有时不能编程
asr语音识别不能编程原因是会导致运行中断。根据查询相关资料信息,由于ASRPRO语音识别芯片支持程序多线程运行导致中断不常用,更多采用串口通信和ADC数值读入等功能的实现编程。
荐好用的可以把录音转换成文字的软件有哪些?
1、腾讯云语音识别
如果你的音频文件数量多,时长<5小时,文件大小< 5M,可以选择腾讯云语音识别。这是短语音批量转文字的工具,背靠鹅厂,服务性能稳定。相较于网易见外,它的转化速度更快一些,音频格式更为丰富,支持 wav、pcm、opus、speex、silk、mp3;还能批量转化 10 个文件。
2、讯飞听见
依托科大讯飞的核心语音技术,它的识别准确度高,而且转化速度快,1 小时音频最快 5 分钟出稿!此外,它还支持中英混合模式,就算是对话中夹杂英文专业名词的外企会议录音,也能翻译得一清二楚。支持的格式有 mp3、wav、pcm、m4a、amr、aac、mp4、3gp,8种格式!
3、i笛云听写
专业的音频网盘 APP,也是 AI 语音转文字的一把好手。10 小时的免费转写额度,200 小时的储存空间,足够日常使用。目前支持的音频格式较为常见,有 wav、m4a、acc、mp3。导入文件后,点击【转文字】,即可将录音转为文稿。
语音识别中的ASR技术通识 2019-12-06
ASR(Automatic speech recognition),自动语言识别,自动将语言转化成文字的过程,作用类似于人类的耳朵。
流程:输入-编码-解码-输出
语言识别输入的是声音,属于计算机无法识别的模拟信号,所以需要通过模型将其转化成数字信号,并对其中的特征进行提取,编码时,会将声音切成很小的片段,成为 帧 ,类似于视频中最小时间单位的帧。帧和帧之间会有一定的重叠。
对于得到的每一帧,按照人耳听声的特定的MCFF规则,提取其中的特征,转成 多维向量 。向量中的每一个维度可以看做是这一帧中的特征。
解码过程是将得到的向量变成文字的过程,其中用到两个模型 声学模型 和 语言模型 。声学模型是将特征向量转化成单个字母(中文的拼音声母和韵母),成为音素。语言模型是将音素拼接起来成为单词或者汉字。两种模型都需要大量的语言数据进行训练。
传统识别方式:隐马尔可夫模型(HMM)
端到端识别方式:神经网络(DNN,deep neural network)
两种识别方式主要的差异在声学模型上。
目前中文的识别率在97%以上,距离理想的99%还有很大的差距。
“远场”。下面主要说3个概念:
语音激活检测、语音唤醒、以及麦克风阵列。
1)语音激活检测(voice active detection,VAD)
A)需求背景:在近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰,简单算法也能做到有效可靠。
但远场识别场景下,用户不能用手接触设备,这时噪声比较大,SNR下降剧烈,必须使用VAD了。
B)定义:判断什么时候有语音什么时候没有语音(静音)。
后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。
2)语音唤醒 (voice trigger,VT)
A)需求背景:在近场识别时,用户可以点击按钮后直接说话,但是远场识别时,需要在VAD检测到人声之后,进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,Google的“OK Google”,亚马逊Echo的“Alexa”等。
B)定义:可以理解为喊名字,引起听者的注意。
VT判断是唤醒(激活)词,那后续的语音就应该进行识别了;否则,不进行识别。
C) 难点 :语音识别,不论远场还是进场,都是在云端进行,但是语音唤醒基本是在(设备)本地进行的,要求更高——
C.1)唤醒响应时间。据傅盛说,世界上所有的音箱,除了Echo和他们做的小雅智能音箱能达到1.5秒之外,其他的都在3秒以上。
C.2)功耗要低。iphone 4s出现Siri,但直到iphone 6s之后才允许不接电源的情况下直接喊“hey Siri”进行语音唤醒。这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。
C.3)唤醒效果。喊它的时候它不答应这叫做漏报,没喊它的时候它跳出来讲话叫做误报。漏报和误报这2个指标,是此消彼长的,比如,如果唤醒词的字数很长,当然误报少,但是漏报会多;如果唤醒词的字数很短,漏报少了,但误报会多,特别如果大半夜的突然唱歌或讲故事,会特别吓人的……
C.4)唤醒词。技术上要求,一般最少3个音节。比如“OK google”和“Alexa”有四个音节,“hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”。
注:一般产品经理或行业交流时,直接说汉语“语音唤醒”,而英文缩写“VT”,技术人员可能用得多些。
3)麦克风阵列(Microphone Array)
A)需求背景:在会议室、户外、商场等各种复杂环境下,会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境,要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)。另外,家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。
B)定义:由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
c)云端为主。
比如地图功能,由于POI(Point of Interest,兴趣点,指地理位置数据)数据量太大,直接到云端搜索可能更方便(除非是“家”、“公司”等个性化场景)。比如,用户说“从武汉火车站到东福”,可以被纠正为“从武汉火车站到东湖”。
各家公司在宣传时,会说语音识别率达到了97%,甚至98%,但那一般是需要用户在安静环境下,近距离、慢慢的、认真清晰发音;而在一些实际场景,很可能还不够好的,比如——
1、比如在大家都认为相对容易做的翻译场景,其实也还没完全可用,台上演示是一回事,普通用户使用是另一回事;特别是在一些垂直行业,领域知识很容易出错;另外,还可详见 《怼一怼那些假机器同传》
2、车载
大概3、4年前,我们内部做过针对车载场景的语言助手demo,拿到真实场景内去验证,结果发现,车内语音识别效果非常不理想。而且直到今年,我曾经面试过一位做车内语音交互系统的产品经理,发现他们的验收方其实也没有特别严格的测试,因为大家都知道,那样怎么也通过不了。。。
车内语音识别的难点很多,除了多人说话的干扰,还有胎噪、风噪,以及经常处于离线情况。
据说有的公司专门在做车内降噪,还有些公司想通过智能硬件来解决,至少目前好像还没有哪个产品解决好了这个问题,并且获得了用户的口碑称赞的。
3、家庭场景,由于相对安静和可控,如果远场做好了,还是有希望的。
4、中英文混合。
特别在听歌场景,用户说想听某首英文歌时,很容易识别错误的。这方面,只有傅盛的小雅音箱据说做了很多优化,有待用户检验。
总之,ASR是目前AI领域,相对最接近商用成熟的技术,但还是需要用户可以配合AI在特定场景下使用。这是不是问题呢?是问题,但其实不影响我们做产品demo和初步的产品化工作,所以反而是我们AI产品经理的发挥机会。
1、远场语音识别,是最近2年的重要竞争领域。因为家庭(音箱)等场景有可能做好、在被催熟。
2、更好的机会在垂直细分领域,比如方言(方言识别能够支持40多种,而百度有20多种)、特定人群的声学匹配方案(儿童)
最后,用一张图总结语音识别用于人机交互中的几个难点。
本文来源:https://www.yuntue.com/post/170940.html | 云服务器网,转载请注明出处!

微信扫一扫打赏
支付宝扫一扫打赏