语音识别现在发展到什么阶段了?

语音识别
半点
李韬
2018-05-16 07:30
[ 亿欧导读 ] 在电影《钢铁侠》中,智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么,它就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。
语音识别,深度神经网络,语音识别技术,大数据,自然语言 图片来自“123rf.com.cn”

人工智能快速发展的今天,语音识别开始成为很多设备的标配,语音识别开始被越来越多的人关注,国外微软、谷歌、Facebook,国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法,今天小编就将为你做语音识别技术的简单介绍,并谈谈它的发展历程和未来可能的发展方向。

语音识别技术

在电影《钢铁侠》中,智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么,它就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。

听觉系统

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:


模式识别系统

语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,海量未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息。

语音识别系统图解

事实上,语音识别60多年的发展过程可以分成多个阶段。早期的20多年,即从20世纪50年代到70年代,是科学家们走弯路的阶段,全世界的科学家认为必须先让计算机理解自然语言,也就是用电脑模拟人脑,这20多年的研究成果近乎为零。

直到1970年后,统计语言学的出现才使语音识别重获新生,并取得了今天的非凡成就。推动这个技术路线转变的关键人物是德里克・贾里尼克。采用统计的方法,IBM将当时的语音识别率提升到了90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。

首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,下图是一个波形的示例。


声音分析

要对声音进行分析,就需要对声音分帧。也就是把声音切开成一小段一小段,每一小段称为一帧,如上图25ms为一帧。

语音识别的工作可以分为三步:第一步,把帧识别成状态;第二步,把状态组合成音素;第三步,把音素组合成单词。

如下图所示:

语音帧解

如上图,每个小竖条代表一帧,若干帧语音对应一个状态(如S1029),每三个状态组合成一个音素(如ay),若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。这个“对应”过程就需要用到统计语言学。比如每帧音素对应哪个状态呢?有个容易的办法:看某帧对应哪个状态的概率最大,那这帧就属于哪个状态;这也就是观察概率。此外,还包括:转移概率(每个状态转移到自身或转移到下个状态的概率),语言概率(根据语言统计规律得到的概率)。

其中,前观察概率和转移概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

20世纪80年代以后,语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。20世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破,直到大数据深度神经网络时代的到来。

深度学习

任何技术都有蓄能阶段和爆发阶段,语音识别技术的爆发是源于大数据,伴随互联网出现的涟漪效应和深度神经网络。涟漪效应,指把研究层、产品和用户使用组合在一起,形成一个闭环的迭代优化,这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据,还能学习经验、认识以及怎么使用等,比如说调整哪些东西让用户体验得更好。

舞台讲解

在大数据时代到来后,隐马尔可夫模型出现了局限,即数据量提升时,它带来的表现提升没有深度神经网络那么大。在同样具有涟漪效应的情况下,深度神经网络比之前的算法好,数据越多,深度神经网络的效果更好。深度神经网络由GeoffreyHinton与微软的邓力研究员最先开始做。

虽然目前的语音识别技术已经能够让机器听懂大部分人类的声音,但离“贾维斯”这种假想的超级智能助理的交互能力还很远。语音识别技术的发展方向将从识别到感知认知。

例如,研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开,不管说话人的年龄、口音或说话能力。例如谷歌近期公布了一项研究成果:能够从嘈杂的环境中分离出单个人的声音。

从更长远来看,研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号,而是回到20世纪50年代到70年代语音识别领域专家的最初设想:让计算机理解自然语言,用电脑模拟人脑。让机器可以根据自己被告知的内容回答问题或采取行动。


近年来,粤港澳大湾区在打造创新驱动新引擎,科技创新带动资源集聚等方面着力颇多,创新机制、产业升级、人才引流、协同发展等带来了多方面的机遇。相应的,人工智能、人才赋能正深刻地影响着商业步伐。

2018年10月18-19日,亿欧将在深圳举办“引擎·引领” 2018大湾区国际科创峰会(BATi),集合智能制造、智能产品、智慧城市、智慧安防、智慧交通等一众热点问题展开探讨,分析科技创新未来趋势,盘点技术革命下的发展契机。

报名链接:https://www.iyiou.com/post/ad/id/664

“引擎·引领”2018大湾区国际科创峰会(BATi).jpg

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

参与评论

最新文章

gongsi-tengxunyun
关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部