丑闻:Google举报中国几十位AI大牛论文抄袭:涉及北大. 华为.鹅厂等知名高校和企业!

hzqadmin 阅读:26 2024-07-27 10:06:55 评论:0

国际丑闻

来自清华、北大、上海交大;鹅厂、华为、京东、字节跳动,和炙手可热的AI研发机构北京智源人工智能研究院等十多家知名机构的数十名国内AI大牛参与署名的论文,被Google Brain的一名研究员指出严重抄袭并提供证据。

正文共: 5910字 13

预计阅读时间: 15分钟

被指控的论文名为《A Roadmap for Big Model》(下称《大模型》),根据论文发布时,智源社区发布的文章:论文“由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。”

名叫Nicholas Carlini的研究员近日在其博客中直接罗列了大量该论文与他更早发布的“Deduplicating Training Data Makes Language Models Better”论文一模一样的段落。而且讽刺的是,后者这篇被抄袭的论文,研究的主题正是数据去重和查重。

而且,他还表示,被抄袭的可能至少还有其他十余篇论文。

图源:Nicholas Carlini博客

查阅预印本服务器arXiv可以发现,谷歌大脑研究员的论文上传时间为去年七月份,而《大模型》的上传时间在今年三月。两篇文章所讨论的“大模型”,为目前世界AI研究领域最热门的话题之一。

这篇篇幅巨大的论文,作者署名甚至多达百人。该论文长达数十页,并足足用了第一页的篇幅罗列参与的作者。

其中不乏国内AI业界和学界的知名大佬,供职机构更是把中国知名高校和互联网巨头几乎一网打尽。

在论文作者介绍部分写到,“唐杰设计了这个大模型路线图”。根据清华官方信息,唐杰2006年在清华大学计算机系获得博士学位。研究兴趣包括社会网络分析、数据挖掘、机器学习和知识图谱。2022年1月,唐杰刚因对信息和社交网络挖掘的贡献而当选国际计算机学会会士。出现在作者栏的还包括诸多与唐杰一样在中国AI业内响当当的名字。

Nicholas Carlini在其博客中表示:“很可能只有少数作者参与了这种抄袭,一小部分作者的不当行为不应该被用来指责大多数行为良好的作者。”

在Nicholas Carlini的曝光博客发酵后,arXiv已在涉及抄袭的“A Roadmap for Big Model”论文页面下添加了文字重合的警示。

图源:预印本服务器arXiv

就在今天中午,负责“A Roadmap for Big Model”论文牵头的北京智源人工智能研究院的官方账号已对该情况做出回应,其表示:“我们已经注意到对《A Roadmap for Big Model》一文的质疑,正在对相关情况进行核实,智源研究院鼓励学术创新和学术交流,对学术不端零容忍,有关进展将尽快通报。”

事件爆出当日晚,论文第一单位智源研究院发表中英文致歉信。

承认文章中存在问题,已启动第三方独立审查,后续将进行追责。

今天我们从互联网上获悉,智源研究院在预印本网站arXiv发布的综述报告“A Roadmap for Big Model”(大模型路线图)涉嫌抄袭。对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。

对于这一问题的发生,我们深感愧疚。智源研究院作为一家科研机构,高度重视学术规范,鼓励学术创新和学术交流,对学术不端零容忍。在此,我们向相关原文作者和学术界、产业界的同仁和朋友表示诚挚的道歉。

智源研究院内部调查的初步结果如下:

1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外100位科研人员分别撰写了16篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共200页。报告发布后,根据反馈持续进行修改完善,到4月2日在arXiv网站上已经更新到第三版。

2. 4月13号,我们获悉谷歌研究员Nicholas Carlini在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第2篇文章的第3.1节179个词,第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复,应属抄袭。我们决定立即从报告中删除相应内容,报告修订版今天将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。

3. 智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。

下一步,智源研究院将以此为戒,采取切实措施,加强科研诚信与学风建设:

(一)即日启动邀请第三方专家对报告进行独立审查,根据正式调查结果对相关责任人作出问责处理。

(二)进一步完善制度管理,通过更加严格的审核机制和更加明确的惩戒措施,对研究院内部以及支持的科研人员加强学风教育,防范同类事件的再次发生。

欢迎各界朋友今后持续严格地监督我们的工作,并对我们工作中可能存在的疏漏和不足加以批评和指正。

北京智源人工智能研究院

2022年4月13日

根据智源研究院声明,这篇综述报告由智源牵头,邀请国内外100位科研人员分别撰写了16篇独立的专题文章,并单独署名。

按初步调查结果,智源决定立即从文章中删除已确认的抄袭内容,并通知所有作者对所有内容进行全面审查。

目前论文修订版已提交arXiv进行更新,

看到原作者Nicholas Carlini更新了一段评论:

[Update 4/12: This article has received a lot more attention than I expected. (Context: every hour more people visit this page than viewed my entire website last week.) So a plea: lets not turn this into a witch hunt. Ive seen some people say things like this should result in immediate dismissal of all those involved / people should be banned from arXiv / etc. I dont pretend to know the situation that resulted in this paper having copied from so many sources. Without knowing what happened behind the scenes, Id like to refrain passing judgement. Maybe some junior authors meant well and thought that a citation was enough to then copy text. Maybe there was pressure from above that made some students feel like their only choice to deliver on time was to cut corners. For the part of the senior authors, they may have read over the text and thought that it looked perfectly reasonable and only made a few tweaks to the text here and there without being aware of where it came from. The point is we dont know. With 100 authors on this paper anything could have happened.

[4月12日更新:这篇文章受到的关注比我预期的多得多。(背景:每小时访问这个网页的人比上周浏览我整个网站的人还多)。所以恳请大家:不要把这变成一场猎巫行动。我看到一些人说,像这样的事情应该导致所有相关人员立即被解雇/人们应该被禁止进入arXiv/等等。我并不假装知道导致这篇论文从这么多来源抄袭的情况。

在不知道幕后发生了什么的情况下,我不想做出判断。也许一些初级作者本意是好的,认为有了引文就可以复制文字了。也许上面有压力,让一些学生觉得要按时交稿,唯一的选择就是偷工减料。对于资深作者来说,他们可能读了一遍文本,认为它看起来非常合理,只是在这里和那里对文本做了一些调整,而没有意识到它的来源。关键是我们不知道。这篇论文有100位作者,任何事情都有可能发生。

My hope with this post was just to draw some attention to something that Ive seen happen not infrequently. For example, roughly 1% of published-and-accepted papers have a higher data-copying-fraction than this paper. I should have given this context when I wrote this post initially. So, again, please lets not come down to harshly on this paper in particular. This is a problem Ive noticed with the field in general, this case was just the tipping point for me because it was a paper of mine where this happened. Hopefully we can treat this as a learning experience to improve the field as a whole. With that out of the way, back to your regularly scheduled programming...]

我发这个帖子的目的只是想让大家注意一些我见过的不常发生的事情。例如,大约有1%的已发表和接受的论文的数据复制率比这篇论文高。我应该在最初写这篇文章的时候给出这个背景。所以,请大家不要对这篇论文过于苛责。这是我注意到的这个领域的普遍问题,这个案例对我来说只是一个转折点,因为这是我的一篇论文发生的情况。希望我们能把这当作一个学习的经验,以改善整个领域的情况。话不多说,回到你们正常的安排上来。

我统计了一下原文提及的涉嫌抄袭段落出现的地方:2.3.1,2.4.3,8.3.1,10.2,12.2.3,14.2.2……

我震惊地发现,这不是某一处集中出现了抄袭嫌疑,跨度这么大的涉嫌抄袭行为,绝对不止涉及个别作者!

现在推特的相关讨论让人真心感慨……ViT作者Lucas Beyer毫不留情地说,“我也不确定我会相信一个剽窃团体的声明;在约130pg的内容中,有10个抄袭的区块,来自约100个作者。”

如果这类综述大文章是分工完成的,那可想而知,这个学术环境和学术严谨性令人头皮发麻;

如果这篇文章是一个团队学生的结果,最后却挂上了不同团队的名字(是的,我曾见过这样的文章,而且是一个更可能的解释),那不过是从一类学术不端跳到另一类学术不端罢了。

学术声誉的建立是一辈子的事情,然而要推倒只需要一瞬间。

之前一些学术不端的工作中,其实有很多大佬讨论过关于论文署名的问题。原则上来说,一篇文章的所有署名人员必须:

(1)对研究工作的思路或设计有重要贡献,或者为研究获取、分析或解释数据;

(2)起草研究论文或者在重要的智力性内容上对论文进行修改;

(3)对将要发表的版本作最终定稿;

(4)同意对研究工作的各个方面承担责任以确保与论文任何部分的准确性或诚信有关的问题得到恰当的调查和解决。

也就是说,涉及到学术不端的论文,其所有署名的作者都负有责任(这类分工式的综述类大文章可能比较特别,但每章的那些作者是跑不了的)。一开始轻飘飘把名字挂上,后面把自己的责任摘出去的回应是不被允许的。

讲道理,100多个名字的论文就很离谱。看看这篇文章:

虽然我也见过共同一作很多的文章,但……快一半的人都是共同一作,还有1/4的人是共同通讯,我真的是第一次见到。可能这就是大模型需要的大社群吧。

现在这篇文章因为这样可悲的错误,被Google Brain的研究员一通捶,而且arxiv的页面下面已经添加了文字重合的警示,想必这篇文章在纯学术上的影响力会跌得很严重(毕竟大家都希望引用更具代表性的原创工作),失去了这篇文章本来应有的地位和意义。

学术声誉对于一家学术机构来说还是很重要的。预测一下智源后面的反映

在arxiv上撤稿,后续找时间重新提交修改后的版本。(概率几乎100%)

机构公开道歉。(概率10%)

一些作者以个人身份道歉。(概率80%)

然后当这事没发生过。(概率90%)

此事在社交媒体上不断发酵,引发大量关注。

随后Carlini更新了一段话,呼吁大家理性看待,不要演变成猎巫行动。

在不清楚100个作者中的具体责任人之前不要一棍子打死。

不过,ViT作者之一Lucas Beyer认为,在论文中署名就意味着要参与从创意脑暴、试验、撰写、校对的过程,承担相应责任。

中国各行业涉及的论文抄袭从来不是新鲜事的!

但是这次基本上把国内北大等知名高校. 科研机构以及华为.鹅厂一网打进的科研丑闻还是头一遭,中国的AI大佬们不是人工智能

都变成了人工智障了吗?

对此:你认为谁要负责呢?欢迎留言告诉我们

IT人关注.加*.在看:防止走丢

企业服务IT圈:聚焦全球ToB领域:甲方. 厂商. 集成商. 服务商. 渠道. ISV等生态,分享业内干货,打造中国第一企业服务技术内容社区和社交平台。

我们根据粉丝真实岗位情况,分别设置:创业高管微信群/运维技术专家群/架构师之家/DevOps技术专家汇/ToB企业销售互助会/ToB厂商市场人俱乐部,并为大家提供技术咨询,营销策划.招聘及工作推荐等服务。请大家扫码或者添加微信:tian1tiant,(备注个人真实职业身份信息邀请不同岗位微信群)

公众号官方网站qidao123.com了解更多,ToB企业服务之家,社交平台,限时注册体验更多服务!

回复关键字“名单”获取IT界灰色工厂名录。

分享到:

本文 zblog模板 原创,转载保留链接!网址:http://fsxxzx.com/post/1330.html

可以去百度分享获取分享代码输入这里。
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

排行榜
标签列表