周文猛
认证作者 作者

199

文章/篇

281.4万

阅读/次

拜访信息

为了给您提供更快更好的服务,在获取作者联系方式前,想对您有个简单了解. 邀请您填写如下信息

提交成功

非常感谢您的配合,我们的作者会尽快通过您的微信,
请耐心等待~

微信号

15701235851

华为诺亚方舟实验室计算机视觉首席科学家田奇:六大前沿CV技术探索

周文猛
2019-05-01 · 09:45
[ 亿欧导读 ] 诺亚方舟实验室在计算机视觉领域的研究主要分为六个方向,它们分别是:底层视觉、3D视觉、语义理解、数据生成、视觉计算、视觉与多模态的融合。
田奇,华为,诺亚方舟,田奇,计算机视觉

作者:周文猛,图片来自“亿欧图库”

在刚结束的2019国际智能科技峰会上,华为诺亚方舟实验室计算机视觉首席科学家田奇教授发表了以《大算力大数据时代的计算机视觉前沿探索》为主题的演讲,并且在随后的媒体沟通环节发表了自己对于AI算法、数据、算力等方面的观点。

自2018年6月份底加入华为诺亚方舟实验室,并担任计算视觉首席科学家,田奇教授便一直主导诺亚方舟实验室视觉方向的前沿研究,构建华为在各视觉业务下的算法竞争力和护城河。然而田奇教授和华为诺亚视觉实验室成员一直都非常低调,媒体曝光率较少。华为诺亚视觉实验室具体的研究方向和最新进展等相关信息也难以从网络上获得。

下文结合田奇教授在大会上的演讲以及媒体沟通会上所交流的观点,分别从诺亚方舟实验室在计算机视觉领域的主要研究方向、相关研究成果、以及田奇教授对于人工智能产业发展的观点等角度展开介绍,对华为诺亚方舟实验室正在开展的工作带来多角度的诠释。

诺亚方舟实验室六大CV研究方向及相关挑战

目前,华为拥有着超过18万名员工,在全球170多个国家经营业务,2018年营收额高达1085亿美元,并且成功跻身财富500强第72位。在华为高速增长的企业财富以及超强的业务布局能力背后,最为关键的一股力量莫过于华为遍布全球各地的14个研发中心。

作为华为的AI研究中心,华为诺亚方舟实验室便是这14大研究中心当中不可或缺的一员,同时也承载着华为打造世界顶级人工智能实验室、帮助公司以及整个产业实现AI战略转型的宏伟使命。

以田奇教授为代表的AI研发人员主要专注于诺亚方舟实验室计算机视觉领域的研究。据田奇教授介绍,诺亚方舟实验室在计算机视觉领域的研究主要分为六个方向,它们分别是:底层视觉、3D视觉、语义理解、数据生成、视觉计算、视觉与多模态的融合。

第一个研究方向是底层视觉,该部分的研究课题主要致力于提升拍照体验。目前低分辨率和噪声是影响拍照体验的重要因素,虽然对已拍摄的照片进行超分和去噪可有效提升用户体验,但是也存在噪声统计特性难以估计、多重处理后原始图像和噪声难以恢复、图像退化模糊之后还原难等缺点。

第二个研究方向是语义理解。图像视频内容中通常包含着非常丰富的语义信息,诸如扔东西、偷窃等个体行为以及聚会、斗殴等群体事件。因此,语义理解技术的发展能为平安城市、终端视觉等业务带来巨大的商业价值。但目前相关技术的发展也存在一些挑战,一方面,同类事件之间的不同表现行为不易辨识;另一方面,不同场景当中的相似行为可能代表的语义不一致。

第三个研究方向是3D视觉。相较于二维数据来说,三维数据中蕴含着更为丰富的信息,因此也被一致认为是计算机视觉的未来。但是三维视觉发展也面临着众多挑战,以医疗影像为例:医疗影像的数据标注需要极为专业的知识,在大数据时代,获取具有精准标注的医疗数据困难且昂贵;此外,医疗影像当中区分正常样本和不正常样本难度较大,譬如需要对一些器官病变的细微之处进行识别。此外,视频数据当中存在大量的冗余信息,如何从这种海量的冗余信息中挖掘出有用的信息也是一个很大的挑战。

第四个研究方向是数据生成。丰富的数据是算法研究的保障和基石,但是在实际场景当中,由于版权和隐私等限制会导致数据获取难度大、人工标注成本高等问题。如何通过低成本的方式获取实用的数据已经成为了行业发展的重中之重。通过现有的数据生成技术生成的数据大多存在图像质量差、同质化现象严重等问题。

第五个研究方向是视觉计算。视觉计算是深度学习应用落地非常重要的一环,现在行业内有两个研究比较多的课题方向:一个是现有网络模型的压缩与加速,另外一个就是自动搜索新的网络结构。由于目前边缘计算的算法相对独立,行业缺乏统一的平台,调用极其困难,而且行业内更缺乏一些针对特定视觉任务的网络压缩与加速算法,这导致了这一课题研究方向存在巨大的挑战。此外,现在神经网络人工构建策略费时费力,虽然网络结构搜索能够在一定程度上解决这一问题,但是其在算法和效率上仍有较大的进步空间。

第六个研究方向是视觉与多模态。真实世界中的数据存在语音、文字、图片、视频、雷达激光等不同的模态形式,不同模态的数据在计算机世界之中的相互转换已经成为了一门专业学科。目前融合多模态信息的方案往往面临数据异质性问题,即不同模态的信息难以统一表示;此外,评估多模态数据之间转换性能的准则比较主观,不能很好地进行客观评价。这些方向正是需要行业加大研发力度的地方。

五大CV技术创新,田奇团队的行业“药方”

聚焦于计算机视觉研究的六大方向,面对行业提出的挑战以及新的难题,田奇教授及其团队成员积极攻克难关,通过新的算法以及求解模式给出了新的行业药方——诺亚方舟实验室给出了在神经网络结构搜索(NAS)、目标检测、行人再识别、网络压缩、三维物体检测等方面的技术解决方案,并取得了优于行业的突破性创新成果。

在神经网络结构搜索方面,现有方法的搜索网络与测试网络存在较大深度差异。如CMU和DeepMind联合提出的DARTS方法中,搜索网络只有8个单元,但是测试网络有20个单元。然而,在较浅的搜索网络中搜索到的结构不一定适合较深的测试网络。如果直接增加搜索网络的深度,又会导致显存爆炸的问题。对此,华为提出一种新的网络搜索方案。据悉,目前华为这一方案搜索到的网络结构在CIFAR10测试得到2.55%的错误率,迁移到ImageNet上在移动设置下得到24.5%的Top-1错误率。这种新方法同时极大地降低了搜索开销:相较于在ICLR 2019上发表的工作DARTS(搜索时间需要4GPU天),的新方法搜索过程仅需0.3GPU天,却能得到更好的性能。

作为计算机视觉非常基本的技术,目标检测对大量应用都有着广泛的影响力。目前的物体检测框架主要分为单阶段方法和两阶段方法,前者速度更快而后者精度更高。目前最好的单阶段检测方法基于关键点的检测,并且通过角点的组合,确定目标框。但是这种方法很难感知物体内部的信息,导致网络生成很多的错误目标框。为此,华为提出了一种借助物体中心点去检测物体目标框的方法,引入一个中心关键点,以筛选检测出的目标框。如果待定的目标框的中心区域包括某个物体的中心点,则该目标框即为可能是正确的目标框,否则该目标框将被去除。实验结果表明,在目前最具挑战性的MS-COCO数据集上,该方法超过了所有已知的单阶段检测方法,并大幅度领先,领先幅度至少达到4.9%,几乎达到当前最好的两阶段检测方法的准确率。该方法目前已开源,并且获得了业界同行大量关注。

行人再识别技术在平安城市、智慧园区等领域有着广泛的运用。当前行人重识别数据标注方法存在着标注难、成本高等问题,为此,华为提出新的行人重识别解决方案来大幅降低标注成本,使得能够在新场景中快速部署行人重识别模型。从实验结果来看,华为的行人再识别技术,在弱监督场景下的准确率得到了显著的提升。

网络压缩对端侧设备上的应用具有重大价值。目前业内在不损失精度的情况下可达到数倍的压缩加速比,但是由于隐私、法律、传输等方面的原因,用于压缩训练的数据常常不可获得,进一步提升了该问题的难度。华为在没有原训练数据的情况下,采用生成网络提供训练数据,设计损失函数来得到和真实图片达到相同近似分布的数据用于训练,并做网络压缩。从得到的结果来看,在MNIST上,对LeNet-5架构的压缩可以保持98.2%的准确率,超越之前最好的算法6%,接近使用真实数据的压缩算法所获得准确率。

对于可广泛运用于无人驾驶当中的三维物体检测而言,远处物体二维图像上很小的位移量便会导致三维空间上巨大的偏差,但是已有的算法很难达到非常高的三维覆盖率。华为提出利用强化学习方法来进行轴向矫正。从实验结果来看,在KITTI鸟瞰图评估和三维物体检测数据集上,华为提出的方法相较于当前最好算法Mono3D和Deep3DBox性能提升了6%左右。

深度学习仍在进步,算法与算力是相辅相成的

在演讲结束后的媒体沟通环节,田奇教授介绍了相关技术以及研究在具体场景当中的运用,并且发表了自己对于算力、算法等方面的看法。

基于华为昇腾芯片,华为数据生态等多方面的资源支撑,田奇教授带领诺亚方舟实验室相关人员在计算机视觉多个领域开展研究,并最终将一系列研究成果运用于包括手机终端、智慧医疗、平安城市、安防、数字娱乐等实际的场景当中。田奇表示:“我们主要致力于通过我们的创新研究,使机器具有感知和理解周围世界的能力,并最终实现我们的商业价值。”

最近一段时间以来,深度学习技术发展缓慢或者到了一定瓶颈的说法也一度成为各界人士讨论的话题。在田奇教授看来,前两年深度学习火热起来其实与之前的长期积累分不开,只不过是大家到了爆发的阶段才关注而已,目前深度学习也依然在不断地发展和进步。

由于算力的提升,人工智能技术的发展也取得了巨大的进步。目前业内出现了AI发展该重算力还是重算法的讨论,田奇教授针对这一问题阐述了自己的观点,其本人表示:“在终端的运用上,算力的提升为大量的算法以及数据运算提供了便利,使得更多的算法有了用武之地;同时,超大型算法的训练与求解又依赖于算力的发展。然而,没有较好算法的提出,算力的价值也无法体现。算力就像电、而算法就像发明的电灯泡一样。所以单纯的算力至上或者是算法至上的说法都是错误的,算法与算力的关系其实更是一种交替融合、相辅相成的状态。只是从学界和产业界来看,目前高校里面更注重算法的研究,而企业界因为具备大量的算力,于是相对更倾向于对算力的依赖。”

本文经授权发布,版权归原作者所有;内容为作者独立观点,不代表亿欧立场。如需转载请联系原作者。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

打赏支持

5
5
10
20
50
80
100
其它金额
任意赏:
广告

参与评论

最新文章

1、 若贵平台是网站或者APP,在进行单篇原创文章转载时,需在文章标题或者导语下方,注明文章来源以及作者名称;若寻求5篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。

【若贵司平台转载亿欧公司原创文章已经超过5篇,请及时与我们联系补签转载合作协议,计算时间以2019年2月10日之后为准】

2、 若贵平台是微信公众号,在进行单篇原创文章转载时,请联系亿欧公司内容运营人员进行单篇文章的白名单开通,同样需要注明文章来源及作者名称;若寻求2篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。可将公司全称(简称)、公司网址、微信公众号、微信或者电话等信息发送至hezuo@iyiou.com,会有工作人员与您取得联系。

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部