杨珊珊
认证作者 作者

239

文章/篇

362.7万

阅读/次

拜访信息

为了给您提供更快更好的服务,在获取作者联系方式前,想对您有个简单了解. 邀请您填写如下信息

提交成功

非常感谢您的配合,我们的作者会尽快通过您的微信,
请耐心等待~

微信号

15701235851

YOCSEF广深思辨:复杂大数据聚类分析的机遇与挑战在何处?

杨珊珊
2019-06-04 · 18:53
[ 亿欧导读 ] 一场发生在羊城的精彩学术思辨,主题为“复杂大数据聚类分析的机遇与挑战在何处?”
中国计算机学会 CCF 人工智能 YOCSEF,大数据,无监督学习,深度学习,聚类分析

作者:杨珊珊

2019年6月2日,YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学与计算机学院成功举办了“复杂大数据聚类分析的机遇与挑战在何处?”大湾区IT创新论坛。

本次论坛由YOCSEF广州AC委员、华南农业大学黄栋博士,YOCSEF深圳AC委员、深圳大学陈小军博士共同担任执行主席。广州分论坛副主席王昌栋博士,广州分论坛主席郝天永博士深度参与,AC委员韦光、谢光强、李冠彬等参与。论坛共吸引了来自北京理工大学、澳门大学、中山大学、华南理工大学、华南师范大学、华南农业大学、广东外语外贸大学、广东工业大学、广州大学、广东药科大学、深圳大学、哈尔滨工业大学(深圳)等十余所大湾区高校、深圳市卫生健康委以及多家知名IT企业的60多人参加。广州图普网络科技有限公司提供了活动赞助。

论坛分为先导报告讨论争鸣两个阶段。先导报告阶段由陈小军博士主持。王昌栋博士以“多视图非线性聚类”为题,着重介绍了非线性聚类、多视图聚类以及多视图非线性聚类的理论、方法以及相关进展。陈小军博士以“面向大数据的图聚类方法”为题,阐述了在大数据场景下的图模型构建与优化及其在大数据聚类问题中的应用。张晓峰博士以“基于半监督聚类结构调整的分类方法研究”为题,论述了具备自动调整模型结构能力的半监督聚类模型。黄栋博士以“从集成聚类到大规模聚类:有限资源下的大规模聚类问题初探”为题,从集成聚类的若干重要问题入手,进一步将话题延伸至在常规单机环境下可应对千万级数据的大规模谱聚类及大规模集成聚类研究。

经过先导报告的多角度论述,论坛继续围绕“复杂大数据聚类的机遇与挑战”展开多个相关议题的讨论争鸣。讨论争鸣环节由黄栋博士主持,与会人士针对以下三个议题进行了有理有据、针锋相对的思辨性正反方讨论。

“在大数据时代下,无监督学习的重要性是更为显著,还是渐渐消退?”

“深度学习大步前进,聚类分析与之携手,还是各司其职?以及各司何职?”

“大数据聚类分析,最亟待解决之瓶颈是硬件、是数据、还是算法?”

争鸣议题一:无监督学习的重要性是更为显著还是渐渐消退?

广州分论坛主席郝天永认为,无监督学习的重要性会更为显著。大量数据的涌现往往伴随缺乏标签或者很难去打标签的难题,比如在医学领域和金融领域,无监督学习可以在无类标的情况下更好地去解决一些问题,因此“更为显著”。

华南农业大学黄栋博士同样站在正方,认为少量标签信息可能使得无监督模型效果大为提升,但有时候“模型设计得好不好”比“是否加少量监督信息”显得更为重要。对于一个好的无监督模型,甚至可能在很多数据场景下比一些半监督模型表现出更好的性能,更关键的问题是模型本身好不好,从实验上、从数学上有没更好的支撑。

王昌栋则站在反方,以中山大学校园卡数据的实际项目为例,在缺少标签的情况下不同无监督模型得出的差异非常大,后来决定将无监督模型替换为了半监督模型。陈小军博士也是站在反方,提及此前做过的腾讯金融风控方面数据,规模特别大;仅使用无监督学习的结果,因为没有类标,非常难以评价,工业界对这个结果也是有质疑的。陈小军博士补充表示,更支持半监督的方式,在现有的半监督作法中,把有监督的loss函数与无监督的loss函数进行组合是一种经典手段,但这种组合好不好也是他最近在思考的一个问题。

争鸣议题二:深度学习大步前进,聚类分析与之携手,还是各司其职?

深圳大学陈小军博士表示,深度学习可以学习数据表征,之后可用常规聚类算法进行分析,但对聚类分析中的相似度学习没有贡献,如何运用深度学习去提升相似度学习,或者如何用深度学习对非线性可分数据得到一个线性空间下的表征,两者可以相互“携手”。

中山大学邓志鸿赞同利用深度学习的方法来学习数据的低维表达,以此一致“携手”。对此,黄栋认为,已有“深度学习+聚类分析”相关研究,但只在图像数据集(或高维数据)上实验,因为对图像这种高维度、有效特征难以提取的复杂数据,深度学习在特征表示上的优势显现,但对于大规模低维度数据,未来也仍是“各司其职”。

郝天永认为深度学习在特征提取和其他一些领域有非常重要的作用,携手可以目标,但路还很长,目前两者仍是各司其职。澳门大学的冯绮颖同学提到自己目前就在做深度聚类的研究,用深度学习对高维数据进行特征提取再作聚类分析确实可以得到很好的效果,但与此同时计算复杂度上升的问题、以及深度学习需要调参以改善模型效果的问题。陈小军认为聚类分析的初衷是无监督的,如果不恰当调参有违无监督学习本质。

王昌栋认为深度模型通过特定数据调参调优之后再作聚类,一方面与无监督设定相悖,另一方面对特定领域效果很好,但推广性较差,很可能的情况是换作其他类型数据就出现很差效果。

黄栋对调参问题提出不同看法,算法可分为专用算法和通用算法,专用算法对某一类数据有效,通用算法则适用于普遍数据,两者都很有意义;广州大学姜誉博士认为深度学习与聚类分析各有所长,深度学习有应用于聚类分析的可能,但更多地应用于其他领域,二者仍将各司其职。

争鸣议题三:大数据聚类分析,最亟待解决之瓶颈是硬件(算力)、是数据、还是算法?

陈小军认为当前最大瓶颈是算法,已有大量数据且硬件算力非常强。例如微信支付每天十几亿的交易次数,最大瓶颈还在于算法;

王昌栋则认为,大数据聚类的最大瓶颈在于数据,应从数据分布的角度考虑,根据数据的特点来设计相应的算法;何宝华提出表示赞同王昌栋博士的结论,但反对其成立理由,并呼吁从数据抽样及置信度方面进行考虑;

黄栋认为在大数据分析中,数据规模足够大,但数据不够好,未经清洗的大规模数据其实是很难使用的,而数据清洗是非常头疼的一个问题。

陈小军博士从另一个角度回答这个问题,他认为,数据清洗依然是算法的一部分。但是,除了从算法入手,数据清洗很多时候还是需要专家知识,例如医学专家、金融专家等,专家知识可以理解为数据的范畴。

广东药科大学的傅城州博士指出,不能因为数据不好就不去做,我们的目标是从数据中找出问题、并解决问题,瓶颈不在于数据,而在于能够很好解决这个数据问题的算法。黄栋博士用了一个生动的比喻,他说:“炒菜炒得不好,不能怪原料,要反思的是厨艺不精!”

广东工业大学谢光强博士提到,此前项目经验,大部分时间花在数据清洗上,但这一部分不做好又无法开展后续核心算法工作,数据的整理和清洗其实更适合让公司的人来做,让学者可以更专注于核心算法设计。

中山大学李佩珍认为,在重视算法和数据的同时,不应该忽略算力。硬件和算法同时都是最大瓶颈,算力的瓶颈不在于不够大而在于不够accessible,很多人对超算不够了解或不知如何使用。

论坛争鸣议题讨论后,大家意犹未尽,辩论了由议题三产生的衍生议题“数据孤岛问题”、“大数据之大,哪一大,最可怕?大样本、大维度、大噪声,还是其他之大?”,讨论联邦学习与迁移学习问题,论及跨医院、跨银行的数据共享难题。参与讨论的人员各持观点,从不同角度进行激烈辨析,碰撞出很多思想的火花。本次广深联合大湾区IT创新论坛取得圆满成功。

中国计算机学会( China Computer Federation, CCF ),是一个计算领域开放的、专业的学术社团,坚持会员为本的宗旨,致力于推动计算技术的发展和应用,致力于服务专业人士的职业发展。

CCF YOCSEF是中国计算机学会青年计算机科技论坛的简称,是由中国计算机学会(CCF)于1998年创建的系列性专业性活动。总部设在北京,目前已在广州、上海、杭州、长沙、成都、深圳等26个城市建立了分论坛,活动形式主要包括:专题论坛、学术报告会、学术评价、评奖、扶贫助教等。

本文经授权发布,版权归原作者所有;内容为作者独立观点,不代表亿欧立场。如需转载请联系原作者。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

打赏支持

5
5
10
20
50
80
100
其它金额
任意赏:
广告

参与评论

最新文章

1、 若贵平台是网站或者APP,在进行单篇原创文章转载时,需在文章标题或者导语下方,注明文章来源以及作者名称;若寻求5篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。

【若贵司平台转载亿欧公司原创文章已经超过5篇,请及时与我们联系补签转载合作协议,计算时间以2019年2月10日之后为准】

2、 若贵平台是微信公众号,在进行单篇原创文章转载时,请联系亿欧公司内容运营人员进行单篇文章的白名单开通,同样需要注明文章来源及作者名称;若寻求2篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。可将公司全称(简称)、公司网址、微信公众号、微信或者电话等信息发送至hezuo@iyiou.com,会有工作人员与您取得联系。

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部