AI论文查重!抄袭图像也难逃“法眼”丨亿欧智库精选

亿欧智库 > 智库观点 > AI论文查重!抄袭图像也难逃“法眼”丨亿欧智库精选

自动化
Nature
Declan Butler
2018-03-06 08:05
[ 亿欧导读 ] 在纽约,一款专门用于“图像相似性检测”的AI算法系统问世,已被尝试应用于论文图像抄袭的检测之中。在不久的未来,学术造假将无路可逃!
亿欧智库精选分享,亿欧智库,人工智能,图像识别

论文查重,是保护文献作者著作权、反抄袭行为的重要过程。在很长时间内,论文的文字内容查重已基本实现,主要依托于论文共享数据库的搭建,以及搜索引擎技术的成熟。然而,图像查重是一个巨大的难题。一些抄袭者会在已发布的论文图像基础上进行简单的修改,以图“蒙混过关”。而通过人工的方式进行图像查重,工作量之大可以想见。

今天,随着大量研究者在机器学习领域进行的探索和创新,已经创造出一种用于“图像相似性检测”的算法。虽然算法还尚待严谨的验证和完善,但通过机器进行图像查重的未来即将到来。

在内容生产环节,人工智能技术已经在文字、图像、音视频、游戏等多个领域出现落地应用。去年,亿欧智库发布的《2017人工智能+内容生产研究报告》收录了目前国内可见的各类AI在内容生产环节的应用,有兴趣的朋友可点击下载【报告原文】

文章作者Declan Butler,选自"Nature"杂志。


如今,计算机软件现在可以在大量的研究文献中快速发现重复的图像。——三名科学家如是说。

在2月22日发表在"bioRxiv preprint server1"上的一篇论文中,由纽约雪城大学的机器学习研究者Daniel Acuna领导的一个小组报告了使用一种算法来处理成千上万的生物医学论文,寻找重复的图像。如果期刊编辑采用了类似的方法,他们也许能够更容易地在发表之前筛选图像——目前需要相当大的努力,并且只有少数出版物完成。

Acuna说,这项研究表明,使用技术来检测重复图像将成为可能。他没有把算法公开,因为算法尚待完善,有可能出现检测错误,从而引发错误的指控。他和他的同事计划将其授权给期刊和研究诚信办公室(旨在监测失当科学研究行为、促进提升研究行为的责任)。Acuna说,他已经与Lauran Qualkenbush讨论过这个算法,Lauran是伊利诺伊州芝加哥西北大学研究诚信办公室主任,也是美国研究诚信官员协会的副主席。她说:“该算法对研究诚信办公室非常有帮助。”“今年,我十分希望将我的办公室作为这个算法的测试点,以进一步弄清如何使用这项工具。”

在2015年初,Acuna和他的两位同事使用一种算法,从美国国立卫生研究院PubMed数据库中的76万篇文章中提取出260余万张图片,其中包含了细胞、组织,以及由南方墨点法分析而得的凝胶图像。然后,该算法放大了特征最显著的区域(色彩和灰度变化最大的区域),而后提取了每张图像的特征数字“指纹”。

在消除了诸如箭头或流程图组件等特性之后,团队最终获得了大约200万张图片。为了避免由于对比每一张照片而带来的计算量,研究者只对比了来自同一个第一作者和其他署名作者的论文(作者论文中如果使用自己曾经发表的论文中的图片,但不标明出处的话,也属于学术造假)。结果显示,即使将图像旋转、调整大小,或者调整图像对比度或颜色,系统仍然可以识别可能的重复情况。

而后,该团队人工检查了约3750幅经过系统标记的图像样本,来进一步判断是否存在可疑情况,或真的是学术造假。最终,他们发现数据库中1.5%的论文含有可疑图像,而0.6%的论文存在图像方面的学术造假。

达特茅斯学院计算机科学家Hany Farid指出,研究人员还不能确定他们的算法的准确性,因为没有任何已知的重复或非重复的科学图像数据库可以用来测试这个工具。但他称赞该团队将现有技术应用于真实世界的图像,并将工具授权给期刊编辑的行为。

目前,许多期刊都对文章中的图像进行了检查,但很少使用自动化的方式。例如,《自然》会对提交稿件中的图像进行随机抽查,还要求作者提交未编辑的凝胶图像作为参考。

一些期刊正在效仿"Journal of Cell Biology"和"EMBO Journal"等出版物,人工筛选提交稿件中的大部分图片。但"EMBO杂志"主编Bernd Pulverer表示,人工筛选非常耗时,如果有一个常规性的自动化筛查工具来简化这一过程,早就该完成了。

荷兰出版巨头Elsevier的研究诚信部门主管艾伯伯斯伯格说,为了辨认出作品中是否存在被重新使用的图像,出版商需要创建一个共享的数据库,以将即将发表论文中的图片与已发表论文的图片进行比较。

出版商创建共享数据库已经有了先例。2010年,学术出版商在全行业的服务中合作解决剽窃问题。Crossref是一个由大约10,000个商业和学术协会的出版商组成的非盈利组织,该组织创建了CrossCheck服务,能够从组织中的出版商处获取文章,并利用Turnitin公司(位于加利福尼亚州奥克兰的一家公司)的“iThenticate剽窃检测软件”进行检测。这项服务后来改名为“相似度检测”,并逐渐在出版业内被广泛使用。

Crossref的执行董事Ed Pentz说,目前还没有一个用于图像检查的公共系统,部分原因是自动化检测技术还不成熟。但他表示,Crossref关注的正是该领域的发展。

Elsevier表示,他们将支持类似于“图像相似性检测”的项目。两年前,该公司与柏林的洪堡大学(Humboldt University)合作开展研究文章挖掘和识别研究抄袭行为的项目,计划投入三年、100万欧元(合1.2美元)。2018年1月25日,该项目宣布计划根据现有的出版物创建一个图像数据库,该数据库将为研究人员开发自动筛选图像系统提供测试图像。


近年来,粤港澳大湾区在打造创新驱动新引擎,科技创新带动资源集聚等方面着力颇多,创新机制、产业升级、人才引流、协同发展等带来了多方面的机遇。相应的,人工智能、人才赋能正深刻地影响着商业步伐。

2018年10月18-19日,亿欧将在深圳举办“引擎·引领” 2018大湾区国际科创峰会(BATi),集合智能制造、智能产品、智慧城市、智慧安防、智慧交通等一众热点问题展开探讨,分析科技创新未来趋势,盘点技术革命下的发展契机。

报名链接:

https://www.iyiou.com/post/ad/id/664?herkunft=6648

“引擎·引领”2018大湾区国际科创峰会(BATi).jpg

打赏支持

5
5
10
20
50
80
100
其它金额
任意赏:

参与评论

关闭
快捷登录11 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道