声智科技陈孝良:没有好的语音数据收集,语音识别和交互不可能做好

自然语言处理
亿欧
极客王子
2017-01-13 08:17
[ 亿欧导读 ] 创始人陈孝良和李智勇在销售战略上共识“不做为了品牌推广而免费的产品,ALL in投入到硬件研发上,拉开与其他竞品的技术差距,回归商业的本质,凡是声智的产品都需要付费”。
声智科技创始人陈孝良,声智科技,陈孝良,李智勇,声学所,中科院

声智科技是一家人工智能交互与声学解决方案服务商,从事语音交互芯片、模组和设备研发、设计、制造并提供整体声学技术解决方案。简单理解,他们跟思必驰、云知声类似,不直接提供面向TO C的产品,而是做产品公司背后的语音技术支持,是一个技术驱动型公司

声智科技创始合伙人总共6个人,其中5个来自中科院声学所,陈孝良博士是创始人兼CEO,从2003年进入声学所,在2016年4月离职,创办声智科技。区别于苏州思必驰团队、合肥科大讯飞团队、云知声团队,声智科技创立是最晚的,团队人数目前是31人,负责技术研发、算法工程人员有28人,在人员配置上,也是最少的,那么如何突出自有的优势?

陈孝良认为,区别于其他语音技术交互公司,他们来自声学所,最擅长就是声学前端模块,所以就聚焦在这一点上,其他方面会以开放的姿态合作共赢。

产品方案

上图可以看出来,一个语音产品方案由三部分组成,硬件前端涵括麦克风阵列、降噪算法、芯片、硬件平台等,云端包括语音识别和语义理解、语音数据、内容合作有音乐、天气、短信、通话等应用工具,声智科技只专注于前端的开发和研究,而云端和内容以开放的姿态取得共赢合作。

陈孝良认为,目前的使用场景分两种,一种是近场语音(手机语音交互,嘴巴贴近麦克风交互)这种识别率达到90%以上,而远场语音(3-5米、车载环境下、智能家居环境下)的识别其实不高,很多连50%的识别率都达不到,所以市面上的语音产品体验并不好。

声智科技是国内外极少数的专注声学技术的创业公司,国内真正能同台竞技的公司包括科大讯飞、思必驰等公司,而能够完整提供单麦/双麦,4+1, 6+1等麦克风阵列方案的公司,目前只有声智科技,所以声智科技走的是极致、专注路线。

创始人陈孝良和李智勇在销售战略上共识“不做为了品牌推广而免费的产品,ALL in投入到硬件研发上,拉开与其他竞品的技术差距,回归商业的本质,凡是声智的产品都需要付费”。

不为了融资而贪求与大品牌合作,不为了融资而冲销量,陈孝良将这种调性的公司定位是硬科技企业,他认为深度学习的过度火热让大家忽视了这样一个显然无法跳跃的过程,算法无疑是强大的,但在语音交互、自动驾驶、AR这样的领域里,若没有 “Intel、思科”这类硬科技公司,那AI互联网不会真的启动。所以说,目前正是属于硬科技公司的时代。

硬科技公司的典范是Intel、MTK等,其特征非常简单:在某个技术点上树立并保持明显的技术优势。其商业模式通常也简单:出售具有高技术附加值的产品或方案。更理想的状况则是像Intel和高通,把技术优势延展为一种生态优势。

麦克风阵列模组

麦克风阵列核心能力是收集语音数据,没有好的语音数据收集器,何谈语音识别和交互呢?为了更好地论述上面观点,陈孝良博士举例了两个巨头公司的智能音箱产品Amazon Echo和Google Home。他将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home只采用了2麦克风阵列。

不同麦克风阵列方式决定收音质量

麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。

当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。

事实上,仅靠麦克风阵列也很难保证语音识别率的指标。麦克风阵列还仅是物理入口,只是完成了物理世界的声音信号处理,得到了语音识别想要的声音,但是语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果

若想更好地去除部分噪声,可以选用2麦方案,但是这种方案比较折衷,以Siri为代表的智能手机,这个场景一般都是采用2个麦克风系统主要优点就是ID设计简单,在通话模式(也就是给人听)情况下可以去除某个范围内的噪音。若希望产品能适应更多用户场景,则可以类似亚马逊Echo一样直接选用4麦以上的麦克风阵列。这里简单给个参考,机器人一般4个麦克风就够了,音箱建议还是选用6个以上麦克风,至于汽车领域,最好是选用其他结构形式的麦克风阵列,比如分布式阵列。

上述案例内容摘选自陈孝良博士撰写《聊一聊麦克风阵列技术:语音交互应该选用怎样的方案?》一文中,大致可以了解陈孝良博士对语音交互前端硬件的探索深度以及麦克风阵列在语音远场识别作为核心模块的重要意义。

延伸一下,上面列举的Google Home和Amazon Echo都是智能音响,国内还有京东和科大讯飞合作的叮咚音箱,大家会疑惑为什么巨头居然做音箱单品,语音产品更多基于场景经济,将场景简单分类,可以分为路上(行车环境)、办公环境、家居环境。这三个环境分别对应三种语音需求,行车环境(车载语音)、办公环境(医疗、客服语音等)、家居环境(智能家居语音模块),智能音箱的战略意义是成为智能家居中控版块,而音箱只是现阶段赋予的更容易接受的认可物,而最后音乐或许只是智能音箱占比很少的一个模块。

声智科技目前落地的是智能音箱一体化解决方案,这套方案处于合作方对接阶段,在春节后会推广一波,2017年下半年将进入量产阶段。

产品特点

陈孝良博士谈到语音行业的现阶段最大发展瓶颈莫过于人才十分稀缺,人才的缺口不是某个岗位缺,而是横纵向都出现缺人局面。横向来说,市场、运维、产品岗位对语音技术了解太少,基础研发人员培养跟不上发展的节奏,公司发展规模严重受限,纵向的产业链条,合作单位家居、机器人、车载硬件厂商缺乏既懂语音又懂产品的复合型人才,所以语音的行业发展速度不仅受市场需求推动,还受复合型人才缺口的限制

2016年,语音产品往往出现在展厅、出现在沟通会、体验会上,2017年,随着行业的链条专业化,更优质的语音产品将会更低成本进入生活方方面面,而基于语音产品将带来的消费升级和提质增效将为我们的生活和工作带来妙不可言的快乐,期待更优质的产品落地。

作者精品系列:

瞄准语音大数据市场,PK科大讯飞,普强信息要做行业营收第一

视觉识别与机器视觉公司2017趋势:迎来一波热钱、差异化竞争

对话思必驰俞凯:关于定位、人才、技术转化、应用场景探索

赵京雷:阅面科技更注重商业化落地,研究型AI公司烧钱无底洞


【2017亿欧创新者年会暨第三届创新奖颁奖盛典】将于12月13日-14日在北京中国大饭店举行。来自全球的100+名国内外顶级大咖、300+家主流媒体、4000名合作伙伴与行业精英共同参会,共话产业创新的未来与发展。邀您共同参与!

猛戳链接查看活动详情:http://www.iyiou.com/post/ad/id/420

770-160.jpg


版权声明

凡来源为亿欧网的内容,其版权均属北京亿欧网盟科技有限公司所有。文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

打赏支持

5
5
10
20
50
80
100
其它金额
任意赏:

参与评论

相关文章

关闭

极客王子

专栏作者 

89篇文章  |  559,411次浏览

  • 精彩推荐
  • 早稻
  • 宜和宜美链接未来家
  • TechCrunch上海2017国际创新峰会
  • 第十七届中国股权投资年度论坛
  • 创业邦100未来领袖峰会
  • 中国第十届高成长连锁行业峰会
  • 2017第二届全球投资大会

快来扫描二维码,参与话题讨论吧!

发送验证码
发送验证码
发送验证码
找回密码失败,请选择人工找回
如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部