许伟军

188

文章/篇

193.8万

阅读/次

拜访信息

为了给您提供更快更好的服务,在获取作者联系方式前,想对您有个简单了解. 邀请您填写如下信息

提交成功

非常感谢您的配合,我们的作者会尽快通过您的微信,
请耐心等待~

微信号

15701235851

专访BasicFinder CEO杜霖:AI催生的数据服务产业,如何突破天花板?

自动化
亿欧
许伟军
2018-01-18 16:18
[ 亿欧导读 ] AI让一部分人失业,又让另一部分人就业。人工智能对数据的极大需求,催生了一个新的产业:数据服务。但数据服务是一个相对低门槛的赛道,那么它的未来想象空间在哪呢?
杜霖,BasicFinder,杜霖,数据服务,人工智能,众包,工厂

数据服务这个行业里面决定生存的就是价格、交期、质量和产能,还有对客户AI数据需求的理解。” BasicFinder倍赛数据 CEO杜霖说。

众所周知,人工智能有三大要素:计算力、算法和数据。其中数据是人工智能的基础,李开复老师曾说,数据量的激增使得企业可以通过数据实现一些过去只有人能够做的事情,因此大数据是人工智能的前提。

根据麦肯锡报告,在全球范围内,像谷歌这样的科技巨头在2016年投入了20 - 300亿美元到人工智能,VC和PE合计投入AI高达60亿至90亿美元。2025年,人工智能应用的总市场将达到1270亿美元。

此前,谷歌大神Jeff Dean在YC AI 组的一次公开课上提到数据量和准确率的关系,如下图:

数据量和准确率的关系

Source: Google Jeff Deans Lecture for YC-AI,2017

备注:横轴是数据规模,纵轴是准确率,蓝线是深度神经网络算法变化曲线,绿线是传统训练方法变化曲线

可以看出,传统方法随着数据的增加,准确率前期增长较快,后期趋于平稳;而深度神经网络随着数据量增加,准确率持续上升。也就是说,深度神经网络对数据量的需求是持续增加的。

人工智能对数据的极大需求,也催生了一个新的产业:数据服务。即将数据采集、数据清洗、数据标注、数据加工形成一整套的服务。BasicFinder就是切入这个市场的玩家之一。

BasicFinder工厂现场

BasicFinder工厂现场

BasicFinder成立于2015年2月,同时有“工厂”和“众包”两条业务,根据BasicFinder介绍,“工厂”业务已经上线,目前有100名数据管理专家,下辖12家数据加工中心,2000名全职数据处理人员;“众包”业务也将在本月上线。2017年9月,BasicFinder宣布获得千万级Pre-A轮融资,并已经启动A轮融资。

数据服务的两种模式:众包和“工厂”的优劣分析

先来了解数据服务,其背后有一套很复杂的流程。

BasicFinder经过两年时间搭建了一套完善的信息化业务处理平台。包括对于数据需求方发布、定义任务;对于工厂管理人员拆分、分配任务;对于操作人员做任务的领取和生产;对于质检人员质检,修改,汇总任务;以及最终的数据接口匹配与任务交付。

例如采集数据方面,性别比、年龄比都要控制好比例,以及地域的差异。甚至采集设备的位置都会影响数据质量;数据的清洗标记环节,要根据作业的精度要求去掉不符合的数据。最后质量检测,要验证合格的数据率,不合格数据需要重走流程。

BasicFinder数据服务流程

BasicFinder数据服务流程

要完成这一套数据处理流程,目前市场主要有两种模式:众包和自建“工厂”。众包就是把任务分担给互联网民,而“工厂”就是管理全职数据处理人员。

众包的优势是价格控制极低,多样性好,可以快速处理大量的数据。但众包也有四大劣势:

1、任务要简单,太难的任务互联网民做不了,如果需要培训的话,众包很难完成,杜霖说,BasicFinder对某些任务专职培训周期要1-3个月;

2、很多任务给众包做,目的是为了控制成本,但如果预算太低互联网民也不愿意做导致人员流失率很高,比如95后非常难管理;

3、数据质量难以控制,众包对象是互联网民,经常出现一两个人把数据做不好影响整体数据质量。如果加大质检力度,质检的人多了,又增加了成本。很多平台为了降低成本,会用网民来质检网民,但负责质检的众包用户如何监管,又成了难题。

4、数据安全性和项目保密性相对较差。

相比之下,工厂的优势是定制性服务支持,能保证数据高质量及精度。比如在自动驾驶领域,如果出现数据问题,就可能造成事故,甚至影响整个行业,这个领域对数据要求极高。

BasicFinder工厂现场

BasicFinder工厂现场

当然,工厂也有劣势,成本相对高,且难以承接小量不持续的数据处理业务。杜霖说:“越专业的客户数据量越大,他们对数据质量、交期越敏感。”

而要把交期、产能、质量都做得很好并不容易。因为数据服务不但要采集、标注,还要对客户需求深度理解,知道客户需要什么样的数据,在什么场景用,如何增加数据的多样性以提高模型的泛化能力,怎么样优化接口使数据适应实际模型训练。

相反,如果机械地处理一些作业需求,可能会导致数据缺乏多样性,随机性和机器需要的对数据的需求,即缺少泛化能力,如光照、背景多样环境下的数据。多样性越丰富,越能提高深度学习的效果。

针对不同的任务,选择合适模式也异常关键。杜霖表示,2018年1月BasicFinder会上线众包系统及app端,倍赛众包,众包业务最终一道关质检将采用工厂的专业人员做数据检验,保证众包的质量是可靠的。

“BasicFinder工厂和BasicFinder众包,就像一个是AI数据的滴滴专车和滴滴快车。”杜霖说。

三分之二的业务来自安防和自动驾驶

杜霖回忆,BasicFinder从创立到现在也并非一帆风顺。创立初期,BasicFinder有两种选择:第一是用传统工厂+铺客户,响应客户需求入手,先拼业务;第二条路是先积淀,打造平台,保证提供的数据服务稳定、可控、高效之后再去做市场。即先做市场还是先做产品的问题。

杜霖选择了后者,初期放弃了一些市场推广和运营,把重心放在产品研发上。

企业服务市场需求是持续的,只要我们的价格和质量有竞争力,用户会选择最好的服务。当我们产品刚出来的时候,市场就来了。我们内部有一个规矩,就是禁止买卖客户的数据,采用“交后即焚”的数据管理机制,保证了客户数据的安全性,所以赢得了市场口碑。现在是业务拉着产品跑,当然也是因为大环境比较好,AI在各行各业落地赋能。”杜霖说。

业务方面,BasicFinder同时做图像、NLP和语音业务,其中图像占比三分之二,文本及语音占比三分之一。垂直行业里面,自动驾驶领域业务占比三分之一,安防领域三分之一,其他三分之一。

BasicFinder在各个垂直行业的客户覆盖很广,比如上汽这样的传统公司,BAT这些互联网公司,商汤、face++这些成熟的AI公司,初创型AI公司以及科研院校。其中企业业务占比是80%以上,以做模型的企业为主。杜霖表示,互联网巨头的业务量很大,而创业公司数量多,需求也很多,两者总的业务量占比大概1:1。

BasicFinder业务领域

BasicFinder业务领域

值得一提的是,BasicFinder也为很多海外客户提供AI数据服务。包括伯克利大学著名的自动驾驶产业平台Berkeley DeepDrive, BasicFinder承担了其90%以上的自动驾驶数据业务。

谈到国内外市场的不同时,杜霖介绍,国外公司更直接一些,对质量的要求高于对价格的要求。

谈想象空间:数据服务如何突破天花板?

“想象空间”是投资人经常会问的一个问题,也是决定是否投一个项目的核心因素之一。相比人工智能应用的其他领域,数据服务是一个相对低门槛的赛道,那么它的未来想象看空间在哪呢?

杜霖对此保持乐观,BasicFinder不仅是一家AI大数据公司,也是一家企业服务公司。从这个维度上看,对比中外企业服务行业,中国的企业服务成熟度及认知度落后美国大概5年,美国非常成熟,中国企业服务未来非常有潜力。

再从AI技术上来看,文章开头提到,深度学习算法对数据的要求是持续递增的,未来迁移学习和增强学习可能减小对数据的依赖,但这至少需要5年以上。据了解,谷歌、亚马逊这些巨头目前还没有在小样本上成熟有效的算法。

杜霖表示,迁移学习特别难落地,大家都在研究这个方向,但很难产生有效的应用算法。增强学习能适应围棋、象棋等领域,因为反馈及激励策略是可以量化的,但是人类的认知是开放的,没有对与错之分,很难用激励函数表达。所谓“见多识广”,人类的学习恰恰就是依靠数据的持续输入。

第三,现在是AI蓬勃发展的时期,还有更多的行业需要开发。目前AI主要在自动驾驶、安防这些大行业落地,3年内会在各行各业垂直落地。AI的未来可以赋能各行各业,都需要更精准、高质量的数据。

杜霖说,未来BasicFinder希望用数据提供远见,下一步会输出对数据的理解,提供数据的咨询服务,从数据的层面帮助更多的垂直行业落地AI。

比如面包店,如果他们要做一个自动的结账系统,BasicFinder可以告诉他们怎么做面包品类分配,如何搭建设备,如何采集面包数据,如何与现有模型客户的模型匹配,以及如何输出结果。

同时,对于很多上游做模型的客户,根据其算法特长将其推荐给垂直行业,BasicFinder提供数据服务,客户提供模型,共同完成一个AI应用落地。即BasicFinder2.0,从数据的角度做成一个闭环。

版权声明

凡来源为亿欧网的内容,其版权均属北京亿欧网盟科技有限公司所有。文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

打赏支持

5
5
10
20
50
80
100
其它金额
任意赏:

参与评论

最新文章

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部