分享到微信
科技
作者:焦天一EO , 邵天一、陈俊一
编辑:焦天一 2021-08-13 10:57
[亿欧导读]

目前,在社会生活、城市管理、工业检测等诸多方面,依然存在无数亟待解决的问题。把算法运用在解决这些特定问题上,同时在解决问题的过程中会有更多的优质算法脱颖而出,这就是未来行业算法发展最值得期待的地方。

张华平

题图来自“外部授权”

【编者按】张华平,北京理工大学副教授,博士,研究生导师,知名汉语分词系统ICTCLAS创始人,大数据搜索与挖掘实验室主任,中国人工智能学会多语种智能信息处理专委会秘书长,中国中文信息学会社会媒体处理专业委员会副秘书长,全国社会舆情分析论坛主席,北京市顺义区政府专家咨询委员会委员。近日,张华平教授接受亿欧EqualOcean专访,就全球人工智能算法发展与中国算法产业化、语义分析在多领域的深度应用、算法未来的发展趋势等方面分享观点与心得。 


全球人工智能算法发展与中国算法产业化

纵观全球人工智能领域算法的发展历程,近年来,无论是基础理论端的机器学习、深度学习,深度学习中的终身学习、小样本学习,还是应用端的自然语言处理,计算机视觉、语音工程等均已经取得了长足的发展。

张华平向亿欧EqualOcean指出,人工智能可分为计算智能、感知智能与认知智能。例如Google的Alpha Go, Alpha Zero分属计算智能,这类应用较注重算力,如在围棋项目上凭借远超人类的算力水平击败世界冠军,其发展已到了较成熟的阶段,未来应用价值有限,不会太受到重视;而无人驾驶、计算机视觉等技术分属感知智能,国内发展的势头较为迅猛,已形成商汤、旷世、依图、云从“四小龙”的格局;包括自然语言理解、脑认知在内的认知智能算法发展已取得长足进步,长期来看发展潜力巨大,但距离实际业务应用还是有很大差距,“算法已经完全可以替代人“这类说法更是杞人忧天的炒作。

“普华永道的分析报告预测:到2030年,人工智能能够对我国GDP有30%左右的贡献率。近些年来我国人工智能算法领域确实取得了长足进步,从业者也非常多,但依然任重道远,还有很多工作要去做。”

谈及我国算法发展状况与欧美的差异,张华平表示在基础算法理论研究方面,欧美学界要远远领先于我们,深度学习是近年来人工智能最重要的基础理论进步,深度学习的三位推动者尤舒亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton),和雅恩·乐昆(Yann LeCun)因其在神经网络方面的成就赢得了2018年的图灵奖(A.M. Turing Award)。众多人工智能基础性研究的深度学习平台、预训练语言模型、语料库建设均起源于欧美学界,如Google的Tensorflow,Facebook的Pytorch,Bert、GPT、以及斯坦福大学的李飞飞教授的ImageNet等均为人工智能原创性基础性的工作;而在应用算法的攻克上,通过对该领域相关论文的检索查阅,我们可以发现,我国与欧美的发展水平相当,甚至略领先于他们。张华平指出,应用算法当前已形成中美两极的竞争格局,考虑到欧美数据隐私保护的限制,辅以我国人口基数、通信基建所带来的需求倒逼,对算法应用需求井喷,我国在应用算法研发领域超越欧美也指日可待。

与此同时,张华平认为,人工智能算法的炒作、泡沫化现象也必须警惕。国际上如IBM的Watson实验室,就是行业内一个比较典型的失败案例,其使用Watson来辅助做癌症、肿瘤治疗的初衷也受到了美澳等地区合作伙伴的质疑,从而未能达成合作。在国内,某些从事图像处理的公司,迟迟未找到合适的应用场景,其年亏损越发严重。算法一定不能脱离应用,脱离解决实际问题,这是万万不可取的。

“当前认知智能算法层面,从业者应务实的回归于国家安全、情报等存在迫切需求的应用场景,而在一些伪需求领域,泡沫迟早会破灭; 幸运的是,我国行业从业者、投资机构也已经意识到了这个问题。“

那么在算法人才的培育上,政府、企业、学校分别应承担什么样的角色呢?张华平也向亿欧EqualOcean提出了自己的观点:“学校在培养过程中,即承担基础教育的角色。一方面研究最前沿的算法和问题,一方面培养好学生的基本功,如深度学习平台如何使用,提供实验室环境,这些是学校的优势所在;企业最大的价值在于提出现实的问题,如银行就提出过如何在一分钟之内根据所提供的材料来快速判别是否可以放贷这个问题,针对具体问题的算法实现后要去应用,创造更大的价值,企业反过来给做算法进行反馈,形成良性循环。政府则不应过度参与算法市场化。在产学间已形成一个良好生态的前提下,政府作为一个公开信用的平台,应积极鼓励推动、宣传倡导,扮演“信用中介”的这样一个角色。同时企业和算法融合到一起,即是一个商业落地项目,对于政府的招商引资也有促进作用。”

WechatIMG257.jpeg.jpeg

应用算法实践典范BPAA助推中国算法产业化进程

为了切实推动我国算法产业化及全球算法高地建设,世界人工智能大会组委会办公室联合包括零点有数、亿欧EqualOcean等在内的多家合作伙伴,共同举办了首届应用算法实践典范BPAA。

应用算法实践典范BPAA作为2021世界人工智能大会四大品牌赛事之一, 聚焦“推动算法产业化”,以“汇集国际算法资源,传播算法实践标杆,培育算法典范团队,营建算法产业生态,打造全球算法高地”为核心目标,面向来自国内长三角、大湾区、京津冀、中西部以及国外北美、欧洲、亚太等区域的国际算法团队,分设公共、金融、医疗、工业、商业五大算法赛道,广泛征集标杆性的算法实践项目与前沿性的算法应用人才。

张华平作为BPAA评委专家,同样深度参与了此次赛事,在BPAA京津冀区域路演中,最令他印象深刻的前沿实践项目是由数坤科技开发的基于深度学习复合网络的冠心病智能辅助诊断技术。它能够1分钟之内,在冠状动脉增强CT扫描影像上从1-2cm的主动脉到冠状动脉的细到1-2mm的不同分支进行精确的分割提取,并按照SCCT指南的13分支18分段进行准确区分命名。同时在此基础上能够对冠脉每一只血管的斑块进行识别,并评估狭窄程度。

通过AI算法进行冠心病辅诊,不仅能满足患者巨大的冠脉CTA检查需求,也能节约医生的劳动力,从而缓解影像医生极为紧张而导致医疗供给不足的问题。目前已在超过1000家医院安装部署。

张华平和亿欧EqualOcean分享:“我所评判算法好坏的标准有三点:研究的问题是真问题还是假问题、算法有没有创新、算法解决问题的实际效果怎么样。数坤科技所开发的这套算法找准了真实的问题,并已在上千家医院应用。自下而上的解决问题往往比算法本身更加重要。“

对于我国产业端应用算法的迅猛发展,张华平也表示肯定:“实事求是地说,当前的环境下,算法学界和产业界已经很难匹配得上了,因为产业从业者每天在面对真实的问题,且企业可以提供强大的算力支撑,企业端的数据积累也更加丰富,非一般实验室可以提供。就比如最新颁发的2021国际顶级学术会议ACL “最佳论文”奖项就由字节跳动AI Lab的机器翻译技术论文获得。当然这一现象也倒逼研究人员进行调整,不会再基于大量算力来进行创新,会投入更多精力在基础的、原创性的问题上面。”

语义分析:多领域深度应用

语义分析是人工智能算法中一个颇具挑战的领域。张华平认为我国对语义分析的的学术研究正日益精细化,应用落地场景也更加多元化。越来越多的开源技术和开发平台逐日显现。

语义分析和图像识别在应用难度上存在很大差异。图像识别技术可以高效率的应用在酒店、车站、安防等场景,而语义识别应用在具体场景时,语境中用词表达方式的不同会加大识别的难度。例如在环保相关题材中,“绿色”是一个正面的词汇,而在金融领域中,“绿色”即代表下跌,是负面词汇。

在2019年清华大学出版社出版的《大数据智能分析》一书中,张华平带领团队曾用语义分析来研究《红楼梦》前后作者的用词风格,结果发现了一些连中文系专家都很难发现的用词细节和习惯。这也是张华平在“文风识别”这一领域的初步尝试。除此之外,张华平还分享了日本同志社大学金明哲教授团队利用“文书鉴定”算法来破案的实例:一位自杀者,在他死后,其表弟凭一份自杀前的亲笔遗书领取了所有保险金。随后日本警方在算法团队的协助下,利用语义分析技术来研究死者生前的文字和他表弟的文笔习惯, 用有限的文本数据量就推断出遗书非死者亲写,而是获益人伪造,并将真正的凶手逮捕。 其依据就是人类行文说话的字里行间,透露出的个人风格。

不止于国外,在国内语义分析算法也已经深度应用于刑侦场景。如张华平团队的语义分析技术已经在协助北京市公安局、雄安市公安局进行重复报警识别以及串并案分析应用。

除刑侦场景以外,张华平所带领的语义分析算法团队还解决过诸多其他问题。如张华平团队曾对北京市市长信箱的职责分配做出优化的解决方案,将每年收到的超过30万份需求分配给相应的部门去处理;对于疫情后被频繁使用的健康宝投诉信息,人工进行健康码投诉信息的综合分析研判需要动用数名行政人员,花费十几个小时,而张华平团队所提供的语义分析解决方案,五分钟内即可生成分析预警报告;张华平团队也曾组织过500人规模的语义分析性格实验,根据社交网络的用词习惯对参与实验者作出性格判断,结论与心理学家得出的保持高度一致。

张华平认为,所有的算法问题的本质都是计算问题。语义分析的本质是利用统计学,去根据历史的语言来预测现在和未来。这启发了大家对量化的重视。量化处理可以极大提高工作的效率。通常来说,日常工作80%的时间是用来处理枯燥繁杂的重复性工作,而算法的应用可以解决这些流程化的繁杂工作。未来算法的产业化和学界的理论研究也可以不断探索新的应用领域。

WechatIMG259.jpeg.jpeg

未来趋势:算法APP化

算法不仅应用在越来越多的行业中,也在不少国之重器领域发挥着作用。

从航天到深海探索,如火星探索、月面返回,蛟龙号下水等等,从重大材料创新到全新系统搭建,背后都有算法在其中发挥作用。就比如北斗系统,不仅在高精度定位算法上自主可控,而且自研的算法在研发效率、迭代演进速度、运行稳定程度等方面都有优势,成为我国独立自主技术能力的一个重要代表。

未来算法产业发展会有怎样的趋势呢?

张华平认为,首先,未来国内算法产业发展的趋势是,算法与行业、领域的结合会更加紧密,从媒体行业、出版影视到公安刑事、社会治理等多个领域,可以说目前的算法在解决好某一个领域的某一个问题上面,已经展示了非常强的实力。

其次,围绕大数据做数据挖掘还有更多可以尝试的地方。

比如通过新词发现算法实时处理社会媒体产生的大规模数据,不仅算法上有多种尝试,可以使用邻接熵和互信息作为特征进行新词发现的方法,在频繁模式的基础上,计算频繁串在语料库中的左右熵和互信息,通过这两个全局特征进行新词发现;还可以使用标注模型进行新词发现;还可以通过候选词提取、命名实体过滤,新词特征选择,特征计算与候选排序四个步骤这一更加高效的算法发现新词。在应用领域中也可以有更多尝试,未来的算法应该是个性化的,比如今日头条的内容推荐算法,通过浏览记录进行用户画像,并精准推荐用户感兴趣内容。

第三,算法将会众智化。众智指的是什么?就以骚扰电话处理为例,一个电话如果有十几个人标注是骚扰,那算法就可以判定它就是骚扰电话,众智意味着算法未来能够更快、更准地反应众人的智慧。

比如现在科研上的“揭榜挂帅”新制度,以重大需求为导向,以解决问题成效为衡量标准,某一个问题一个人解决不了就广撒英雄帖,汇聚更多人的智慧,整合创新,找到解决方案。算法产业化未来也同样还有这样的趋势。

中国由于大规模市场的存在,在算法应用上有着远超其他国家的优势。张华平认为,中国的算法产业创业者,可以在全球领先的算法技术基础上结合中国实际拓展应用,借助中国在大数据、大计算平台、大应用场景的优质,将算法产业做得更加专业化,逐步发展,让算法提升我们各方面的效率。

比如河南的暴雨,虽然我们也有预报,但目前还无法做到更进一步的精准。但未来随着全球气候变暖,极端天气肯定会越来越多,影响人民群众的生命财产安全。那么结合气候数据,研发预测更加精准的算法就成为一种必需。

灾难预测其实有很多种算法,还可以基于社交网络上零星出现的异常,比如有人在微信、微博发布灾难信息,算法足够敏锐的话就能够判断信息真假,并做出是否要加速传播的决定。

张华平认为,未来,算法可能会像APP一样,有什么需求,想尝试什么样的算法,可以像下载APP一样下载相应的算法,接入数据马上就能跑。当然,这更多是toB、toG方向,不会是toC方向。但在算法产业化的加速发展中,算法也会融入到我们的生活的很多方面,从根本上改变我们的工作、学习和生活。

算法从通用到专用、从基础到细分大致可以分成三层:基础算法、通用算法和行业算法。实际上,7月份首届应用算法实践典范BPAA已顺利完赛,公共、金融、医疗、工业、商业五大赛道众多选手参赛,就已经展现了行业算法在产业化上的蓬勃前景。

目前,在社会生活、城市管理、工业检测等诸多方面,依然存在无数亟待解决的问题。把算法运用在解决这些特定问题上,同时在解决问题的过程中会有更多的优质算法脱颖而出,这就是未来行业算法发展最值得期待的地方。

本文来源于亿欧,原创文章,作者:焦天一EO。转载或合作请点击转载说明,违规转载法律必究。

人工智能语义分析张华平算法