AI公司“抢饭吃”,纷纷自建超算,打的什么“算盘”?

智慧安防智慧警务
AI商业周刊
李熵
2019-11-25 · 15:00
[ 亿欧导读 ] 其实,这些人工智能公司完全可以采用云服务的模式,为何纷纷选择自建超算呢?
初创公司 黑板 演讲 ,超算,AI,人工智能,旷视,数据安全,云服务,腾讯云,阿里云,智慧安防 图片来自“Unsplash”

编者按:从长远来看,自建超算更利于人工智能公司探索算法新业务。此外,从优惠力度、数据安全等角度看,自建超算也是一笔好生意。当然,选择共有云平台还是自建超算也要根据自身公司体量,毕竟打造超算前期投入较大。

本文转载自AI商业周刊,原作者李熵。原标题《为什么说人工智能公司要自建超算?》。经亿欧编辑,供行业人士参考。

不仅英特尔、英伟达这些科技巨头在布局超算,人工智能创企也纷纷打造超算。商汤超算平台的计算集群已搭载超过14000块GPU,峰值计算达16亿亿次/秒,而国家“太湖之光”的峰值计算仅为12.5亿亿次/秒。

去年旷视宣布完成C轮融资时,创始人印奇也对媒体表示:旷视已经在中国好几个地方建了非常大的超算平台,未来的算力还需要更多。算力就像当年的存储一样,无论扩展得多快,都会被消耗掉,需要不断去投入。

其实,这些人工智能公司完全可以采用云服务的模式,比如租赁阿里云腾讯云、AWS、中科曙光等共有云平台的高性能计算服务。那么它们为何纷纷选择自建超算呢?

算法迭代快

计算力和算法是一组最佳CP,如果计算力和算法均是自己研发的,就会产生1+1大于2的“化学反应”。因为原创算法和算力两者采用统一的接口时,更易于互相匹配和协调。且数据的收集、标注、模型建立、模型训练到输出SDK的每一个环节,都可以做到标准化和自动化,整个链条就会跑得更快,算法迭代速度更快。而公有云的超算很难满足每个企业算法的匹配。

尤其在面临新需求下的情况,比如需要1000个GPU卡联合训练,阿里云、腾讯云等这些云平台均没有此类服务,那么新需求就没法进行下去。从长远来看,自建超算更利于探索新业务。

前不久,央视315爆出AI客服一年打40多亿个骚扰电话,以及犯罪分子通过免费公共WIFI窃取用户消费信息的现象引起热议,其背后正是我国数据安全保护薄弱的影射。如果通过公有云平台做模型训练,理论上云平台都可以看到使用方数据。一旦数据被泄露,对使用方公司将是不可逆的打击。

眼下,5G商用逐步临近,5G 时代生产方式将发生革命性的变化,很多终端数据处理都可在云端跑。这也是英特尔、英伟达等巨头企业近期极力打造超算平台的原因之一,因为超算是5G时代巨头争霸不可忽视的一面。

冰冻三尺非一日之寒,构建超算不单是将几千或者几万个GPU堆叠起来,还需要一套强大的“管理系统”——就像微软Windows操作系统。例如阿里耗费多年打造出“盘古分布式系统”,才成为阿里云的Windows。所以,对于人工智能公司,提前积累超算的经验十分必要。

从资本角度来看,在5G大爆发的行业环境下,超算的价值愈加凸显,自建超算有更大的想象空间。在满足自身计算需求情况下,还可以租赁出去把服务卖给中小企业,或许还能盈利,也是一种商业模式。

价格便宜10倍

以阿里云平台为例,笔者粗略算了一笔账:

如果在阿里云平台选择一块卡,包括8个Intel Platinum 8163处理器和1个NVIDIA V100,服务价格为每7620元/月,即9.144万元/年。

一个以上配置的卡成本多少呢?笔者查阅发现,Intel Platinum 8163处理器的价格为1.5万元/个,NVIDIA V100的价格为7.88万元/个。所以1.5W*8+7.88*1=19.88万元,再加上服务器(包括主板等硬件)0.5万元左右,成本共计20.38万元。

对比发现,选择阿里云包月服务所需要的钱大约两年就可以买一张卡,但一张卡的寿命远大于两年,一般至少5-10年。显然,自己组装卡是更省钱的。

一位MISSION.ORG的作者Jeff Chen也对比过自建GPU计算机和租赁AWS云服务,竟然便宜10倍!

他组装一台GPU计算机,花了3千美元,其配置包括一个1080Ti GPU(你也可以用新的2080Ti来学习机器,只要再多花500美元),一个12核CPU,64GB RAM和1TB M.2 SSD。再加三个GPU,总共四个GPU。

我们非常保守地假设,因为GPU迭代非常快,一块用于深度学习的GPU在三年内价值变成0。如下表所示,如果用它超过1年,把电费算在内也会便宜10倍,如果把亚马逊一次购买多年的折扣算在内,1年大概会便宜6倍,3年便宜4倍。4个GPU便宜21倍。

自建计算机和从AWS租赁的费用比较。1个GPU版本便宜4-10倍,4个GPU版本便宜9-21倍,具体取决于利用率。AWS定价包括全年和3年租赁的折扣(35%,60%)。假设功耗为0.20美元/kWh,1台GPU机器消耗1千瓦/小时,4台GPU机器消耗2千瓦/小时。折旧保守估计为3年内的线性损耗。每个GPU 700美元。

如果你想把2080ti用于你的深度学习计算机,会多出500美元,而且对于1 GPU的机器来说,仍然是4-9倍的便宜。

造成这种巨大成本差异的原因是亚马逊Web服务EC2(或谷歌云或Microsoft Azure)的GPU价格为3美元/小时或约2100美元/月。即使当你关闭你的机器时,你仍然需要以每月每GB 0.10美元的价格为机器支付存储费用。

对于一台3千美元的GPU机器学习计算机(1千瓦/小时),如果你经常使用,将在2个月内收支平衡。更不用说你的电脑还归你所有,而且在两个月内它没有贬值多少。同样,4 GPU版本(2千瓦/小时)的更为有利,因为你将在不到1个月内实现收支平衡。(假设电力成本为0.20美元/kWh)

而且GPU性能与AWS相当。与使用下一代Volta技术的Nvidia v100 GPU相比,你的700美元Nvidia 1080 ti的运行速度为其90%。这是因为存在IO,所以即使V100理论上速度可能快1.5–2倍,IO在实践中也会减慢速度。由于您使用的是M.2SSD,IO在您自己的计算机上运行得很快。

结语

从1块卡到几万卡还需要运维费用,以及人才成本,但从长远看,自建超算更有发展潜力,也是AI公司做大的必经之路。

当然,选择共有云平台还是自建超算也要根据自身公司体量,毕竟打造超算前期投入较大

人工智能的核心业务壁垒和竞争力就是算法中的业务逻辑,还有就是数据。如果核心业务已经稳健,数据和算法需要信息安全保护,则需要从公有云平台迁移至自建超算。

如果只是小范围验证业务模式,为了降低成本,可以借助公有云平台快速部署和按需租用的优势,如果资金和时间都充裕,可以直接自建超算。

编辑:杨珊珊

本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

参与评论

最新文章

1、 若贵平台是网站或者APP,在进行单篇原创文章转载时,需在文章标题或者导语下方,注明文章来源以及作者名称;若寻求5篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。

【若贵司平台转载亿欧公司原创文章已经超过5篇,请及时与我们联系补签转载合作协议,计算时间以2019年2月10日之后为准】

2、 若贵平台是微信公众号,在进行单篇原创文章转载时,请联系亿欧公司内容运营人员进行单篇文章的白名单开通,同样需要注明文章来源及作者名称;若寻求2篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。可将公司全称(简称)、公司网址、微信公众号、微信或者电话等信息发送至hezuo@iyiou.com,会有工作人员与您取得联系。

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部