花朵

作者

156

文章/篇

146.5万

阅读/次

拜访信息

为了给您提供更快更好的服务,在获取作者联系方式前,想对您有个简单了解. 邀请您填写如下信息

提交成功

非常感谢您的配合,我们的作者会尽快通过您的微信,
请耐心等待~

微信号

15701235851

苹果语音团队主管Alex Acero:Siri追求真正的人性化,而不是功能累积

自动化语音识别芯片
亿欧
花朵
2017-09-08 · 18:22
[ 亿欧导读 ] 多年来,苹果在开发Siri的道路上缓步前行,一度落后于谷歌和亚马逊,加之Siri的众多槽点也令一些人对其抱有怀疑态度。而苹果语音团队主管Alex Acero表示,苹果Siri要实现真正的人性化,而不仅仅是功能的累积。
苹果,Siri,苹果,虚拟助理,语音识别,亚马逊Alex 图片来自“123rf.com.cn”

【编者按】苹果在开发Siri的道路上缓步前行,一度落后于谷歌和亚马逊,加之Siri的众多槽点也令一些人对其抱有怀疑态度。难道Siri真的就这样发展下去吗?

本文从以下三方面进行分析:1)Siri艰难的成长之路;2)Siri如何学习说话;3)苹果对Siri的愿景。

本文来源于wired.com,作者David Pierce;由亿欧编译。


当Alex Acero第一次看电影《Her》时,并没有表现出与常人的不同之处。但是,当他再次看这部电影时,他的注意力却根本不在电影情节上。作为苹果语音团队主管,他静静地坐在那里,闭上双眼,倾听着演员Scarlett Johansson如何通过配音,表现出电脑系统中“女主人工”Samantha的人工智能的性格。他将大部分注意力放在Samantha与男主Theodore Twombly之间的对话。Acero试图了解Samantha是如何让一个人在没有见过她的情况下坠入爱河。

我问Acero为什么电脑系统里的女生有如此魔力,他笑了,因为答案显而易见。“这是自然的!”他说,“因为她不是传统意义上的机器人!”这对Acero来说几乎是一个启迪。很大程度上,Samantha的成功证实了其Siri项目的正确性,即让Siri听起来更加人性化。

今天凌晨,苹果再次发布了iOS 11的第十个新测试版,未来这一新软件也必将赋予Siri一种新的声音。尽管这一新版本并未增强Siri的新功能,但是你会发现,目前Siri在语句中会有更多的停顿,且在停顿之前拉长音节,以及说话的时候,语音也会上下起伏。Siri说得话更加流畅,且语言种类也更加丰富。

苹果花了数年时间重新设计了Siri背后的技术,把它从一个虚拟助理打造为所有苹果智能手机的潮流概念。Siri不断扩展到新的国家,并增加新的语言识别。如今,Siri由苹果软件部门主管Craig Federighi负责,这表明,Siri对于苹果的重要性可以和iOS相媲美。

要想通过科技让你爱上虚拟助理,还需要一段时间。但Acero及其团队已经取得了巨大的进步。他们坚信,如果能让Siri听起来不像一个机器人,反而像你所认识或信任的人的话,那么即使Siri失败了,也可谓虽败犹荣。

Siri艰难的成长之路

如果你想知道苹果为什么想对其所有产品进行全面把控的话,不妨看看Siri的发展历程。在Siri推出6年之后,其在虚拟助理竞赛中却已经远远落后于其他大多数同类产品。亚马逊的Alexa背靠众多开发支持者;Google Assistant具备更多功能;这两种设备均应用于很多公司的设备中。

但苹果声称这不是他们的错误。当Siri首次推出时,另一家公司为其提供语音识别的后端技术,苹果将Siri的早期问题归咎于他们。苹果产品营销副总裁Greg Joswiak说:“这就像是一场比赛,然而有些人却阻止了我们的前进。”Joswiak表示,苹果曾对Siri制定了一个很大的计划,即你可以与手机上的虚拟助理进行谈话,并且可以让它以更简单的方式为你做事,但技术支持却不够好,因此造成了“无用输入、无用输出”的局面。

几年前,Acero带领团队来负责Siri的后端技术,并改进Siri的体验。目前,Siri基于深度学习和人工智能,取得了巨大的进步。Siri的原始语音识别可以与其他所有竞争对手相匹敌,能正确识别95%的用户语音。人工智能技术应用于其两个截然不同的关键部分:语音到本文,Siri试图弄清楚你说了什么;以及文本到语音,Siri对你所说的话进行回复。

对于Siri来说,最重要的是把你的声音和其他人的声音区分开来,尤其是当这些系统变得更加个性化的时候。Siri拥有的数据越多,就越能在人们之间进行辨别,甚至听懂很浓的口音。Siri的设计也包含安全考虑。研究人员最近发现,他们可以与Siri进行高频次对话,从而使黑客无法侵入。因此,Siri需要学会的从机器语音中分离人类语音,以及区分其他人的声音。

Siri如何学习说话

要想了解这些工作系统是如何运转的,就不得不提到苹果是如何为Siri增加新的语言功能。当Siri进军上海市场时,其团队借助本地已有的数据库,并通过雇佣上海本地人,让他们阅读数据、报纸、网络文章等来丰富其数据库。

该团队将这些录音文字与声音进行匹配,并识别音素。他们试着捕捉到每一种可以想象到的音素,比如在单词末尾逐渐消失的音素,在开始时的发力音素,在停顿之前发音更久的音素,以及在问句中语调上升的音素。每句话都有一个略微不同的声波,苹果的算法分析找出最适合的回复语句。Siri说的每句话都包含了几十个或几百个这样的音素,因此,你听到Siri说的每一句话都不是录音者所说话的方式。

Acero举了一个例子:“你想看(watch)这个吗?”和“我喜欢你的手表(watch)。”这两句话中的watch是同一个单词,但是在两句话中的语调完全不同,第一句是升调,第二句话则是降调。因此,这两句话不能用同一个“watch”的录音,也不能用同样的音素。

几年前,计算机和服务器还没有足够的处理能力来对一个庞大的数据库进行仔细研究,以找到合适的组合音调进行应答,但这就是Acero现在正在做的事情。苹果收集并转录这些数据,同时改进算法,训练网络。他们补充了特定位置的数据和语音定制,不断完善这个系统,直到Siri几乎完全理解了上海话的内容以及人们说话的方式。

与此同时,苹果疯狂地寻找合适的语言人才,来选取适合Siri的语音。Acero与苹果的设计师和用户团队合作,来共同探讨他们最喜欢哪种声音。这项工作更倾向于艺术,而不是科学。而接下来的事情便是科学部分。Acero说:“尽管很多声音听起来很好听,但这并不意味着他们是文本到语音转换的优质声音。”他们要求语言人才按照规定的模式进行演讲,寻找音素的变化——本质上是,每一句简短话语前后部分都存在声波差异。由于音素的变化很大,所以很难用一种自然地方式把它们连到一起,且人类很难通过倾听来识别,只有电脑才能发现这种区别。Acero说:“这就像贴壁纸一样,必须检查接缝,以确保它们在一条直线上。”

当他们发现声音听起来对人类和电脑都合适的人时,苹果在一段时间内会保留这些数据,这就成为了Siri的声音。目前Siri能够使用36个国家里的21种语言,其中涉及到的不同口音和方言,这远超其他智能助理。尽管,Siri槽点很多,但每月3.75亿的用户数量也不容忽视。

不过,相比于全球10亿多苹果用户来说,其3.75亿Siri用户仍显得相形见绌。几乎苹果的所有产品中都包括Siri功能,从iPhone到Apple Watch,甚至是Apple TV都可以看到Siri的存在。分析师估计,仅iPhone用户很快就会突破10亿。尽管Siri作为一个受欢迎且重要的功能,但对于大多数用户来说,使用Siri并非是绝对必要的。

苹果对Siri的愿景

苹果对Siri的愿景是什么呢?不妨先看一下Dwayne Johnson与Siri的一天。Johnson使用Siri来查看日历和备忘录,打开Lyft打车软件;在西斯廷教堂的时候检查他的电子邮件;打开FaceTimes,并举起手机进行自拍。Siri称他为“大先生、光头先生、漂亮先生”,但这让Siri看起来很糟糕。

Joswiak说,从一开始,苹果就希望Siri能成为一种让人喜欢的应用。但人们总喜欢通过问一些琐碎的事情来将Siri与其他虚拟助理进行对比,这让Joswiak很抓狂,因为Siri在这方面看起来很糟糕。Joswiak表示:“我们并不想把Siri设置为完美地处理琐碎事情的工具。”

相反,Joswiak表示苹果系统通过自动化助手帮助人们做更多的事情。他指出,Siri能够在Mac上进行复杂的文件搜索,或者是即将到来的HomePod对音乐渊博的知识。但Siri仍有很多事情做不了,比如不能帮你解决复杂的琐事或争论。但Acero表示,他们正试图让Siri学习它所不知道的事情。

除了Siri的众多槽点之外,其另一个挑战就是如何让人们习惯使用Siri。Acero说:“人们做事情往往都具有习惯性,从打字到语音仍然需要一段时间。”因此,苹果试图引导其用户。在iOS11中,Siri变得更加具有前瞻性,也更加主动。如果拟浏览网页,Siri会建议你阅读苹果的新闻故事,或者你通过Groupon预定按摩服务后,Siri会帮你添加一个日历提醒,同时也会在设备中进行同步设置。

多年来,苹果开发Siri的进程一直比较慢。在许多人看来,苹果已经失去了领先地位,落后于谷歌和亚马逊。但Joswiak表示,问题不在于Siri能做多少事,而是如何正确地做事。苹果既然选择做这件事,就不希望半途而废。

Acero听到荧屏上Samantha有正确的停顿、正确的语调、流畅的声音,以及些许金属感。他表示,苹果想要给用户呈现一些更优质的服务,而不仅仅是功能的累积。

版权声明

本文来源亿欧,经亿欧授权发布,版权归原作者所有。转载或内容合作请点击转载说明,违规转载法律必究。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

打赏支持

5
5
10
20
50
80
100
其它金额
任意赏:

参与评论

最新文章

1、 若贵平台是网站或者APP,在进行单篇原创文章转载时,需在文章标题或者导语下方,注明文章来源以及作者名称;若寻求5篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。

【若贵司平台转载亿欧公司原创文章已经超过5篇,请及时与我们联系补签转载合作协议,计算时间以2019年2月10日之后为准】

2、 若贵平台是微信公众号,在进行单篇原创文章转载时,请联系亿欧公司内容运营人员进行单篇文章的白名单开通,同样需要注明文章来源及作者名称;若寻求2篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。可将公司全称(简称)、公司网址、微信公众号、微信或者电话等信息发送至hezuo@iyiou.com,会有工作人员与您取得联系。

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部