智源研究院承认部分论文存在问题，已启动调查，后续将追责

hzqadmin 阅读：60 2024-07-28 07:16:45 评论：0

TOP前言

“TOP大学来了”小编按，4月13日，智源研究院在其官方网站发布致歉信，承认部分文章存在问题，现已启动第三方独立审查，后续将对抄袭人进行追责。

今天我们从互联网上获悉，智源研究院在预印本网站arXiv发布的综述报告“A Roadmap for Big Model”（大模型路线图）涉嫌抄袭。对这一情况，研究院立即组织内部调查，确认部分文章存在问题后，已启动邀请第三方专家开展独立审查，并进行相关追责。

对于这一问题的发生，我们深感愧疚。智源研究院作为一家科研机构，高度重视学术规范，鼓励学术创新和学术交流，对学术不端零容忍。在此，我们向相关原文作者和学术界、产业界的同仁和朋友表示诚挚的道歉。

智源研究院内部调查的初步结果如下：

1. 该报告是一篇大模型领域的综述，希望尽可能涵盖国内外该领域的所有重要文献，由智源研究院牵头，负责框架设计和稿件汇总，并邀请国内外100位科研人员分别撰写了16篇独立的专题文章，每篇文章分别邀请了一组作者撰写并单独署名，共200页。报告发布后，根据反馈持续进行修改完善，到4月2日在arXiv网站上已经更新到第三版。

2. 4月13日，我们获悉谷歌研究员Nicholas Carlini在个人博客上指出该报告抄袭了他们论文的数个段落，同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查，经查重确认第2篇文章的第3.1节179个词，第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复，应属抄袭。我们决定立即从报告中删除相应内容，报告修订版今天将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查，后续经严格审核后再发布新版本。

3. 智源作为该报告的组织者，理应对各篇文章的所有内容进行严格审核，出现这样的问题难辞其咎。对此我们深感自责，特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训，整改科研管理和论文发表流程，希望各界朋友监督我们工作。

下一步，智源研究院将以此为戒，采取切实措施，加强科研诚信与学风建设：

（一）即日启动邀请第三方专家对报告进行独立审查，根据正式调查结果对相关责任人作出问责处理。

（二）进一步完善制度管理，通过更加严格的审核机制和更加明确的惩戒措施，对研究院内部以及支持的科研人员加强学风教育，防范同类事件的再次发生。

欢迎各界朋友今后持续严格地监督我们的工作，并对我们工作中可能存在的疏漏和不足加以批评和指正。

北京智源人工智能研究院

2022年4月13日

事件回顾

“TOP大学来了”小编按，4月13日，《A Roadmap for Big Model（关于“大模型”的路线图）》论文的第一作者单位北京智源人工智能研究院发布说明称，已展开调查，对学术不端零容忍。

此前，谷歌大脑的著名科学家 Nicholas Carlini在其博客称，该论文与他更早发布的论文存在多处重合，涉嫌严重抄袭，部分段落甚至一模一样。

在Nicholas Carlini的曝光博客发酵后，arXiv已在涉及抄袭的“A Roadmap for Big Model”论文页面下添加了文字重合的警示。

图源：预印本服务器arXiv

这篇长达200页的学术综述论文，有高达100多位作者，他们既有来自清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学等中外著名高校的学者；也有微软亚洲研究院、腾讯、华为、京东、字节跳动、北京智源等知名企业的研究人员。

被指控的论文名为《A Roadmap for Big Model》（下称《大模型》），根据论文发布时，智源社区发布的文章：论文“由悟道大模型研究项目负责人，智源学术副院长，清华大学计算机系教授唐杰牵头，从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发，对15个具体领域的16个相关主题进行全面介绍和探讨。”

Nicholas Carlini在其博客中直接罗列了大量该论文与他更早发布的“Deduplicating Training Data Makes Language Models Better”论文一摸一样的段落。而且讽刺的是，后者这篇被抄袭的论文，研究的主题正是数据去重和查重。

图源：Nicholas Carlini博客

查阅预印本服务器arXiv可以发现，谷歌大脑研究员的论文上传时间为去年七月份，而《大模型》的上传时间在今年三月。两篇文章所讨论的“大模型”，为目前世界AI研究领域最热门的话题之一。

这篇篇幅巨大的论文，作者署名甚至多达百人。其中不乏国内AI业界和学界的知名大佬，供职机构更是把中国知名高校和互联网巨头几乎一网打尽。

在论文作者介绍部分写到，“唐杰设计了这个大模型路线图”。根据清华官方信息，唐杰2006年在清华大学计算机系获得博士学位。研究兴趣包括社会网络分析、数据挖掘、机器学习和知识图谱。2022年1月，唐杰刚因对信息和社交网络挖掘的贡献而当选国际计算机学会会士。出现在作者栏的还包括诸多与唐杰一样在中国AI业内响当当的名字。

Nicholas Carlini在其博客中表示：“很可能只有少数作者参与了这种抄袭，一小部分作者的不当行为不应该被用来指责大多数行为良好的作者。”

编辑、审核：大可

分享到：

本文 zblog模板原创，转载保留链接！网址：http://fsxxzx.com/post/1454.html

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。