首页>资讯>正文
当前观点:GPT-4满分通过MIT本科数学考试,却遭同门质疑“作弊”,数据集本身就有问题
2023-06-19 15:00:03    来源:大数据文摘公众号

这两天,相信大家都被GPT-4满分轻松拿下MIT本科数学考试的事儿给刷屏了。

给先不知情的小伙伴们说一下,这次的测试是MIT、波士顿大学和康奈尔大学的研究团队共同根据MIT所有获得学位所需的数学、电气工程和计算机科学 (EECS) 课程整理出来了4550个问题。

参与测试的AI模型有GPT-3.5、GPT-4、StableVicuna-13B、LLaMA-30B和LLaMA-60B。结果嘛,可想而知,GPT-4满分通过,但GPT-3.5却只做对了三分之一。


【资料图】

论文链接:

https://huggingface.co/papers/2306.08997

这样的结果自然也是吸引到了众多网友的讨论,在网友们的一众惊呼声中,三位同样来自MIT的学生却发现了其中端倪。

揭开“网骗”GPT-4的面纱

在6月16日发现这篇论文后,三人决定深入挖掘一下。但是一小时内,他们对论文的方法论产生了怀疑,不到两个小时,他们意识到,数据集本身是有问题的。

论文中写到,研究人员“在没有图像和有解决方案的问题中随机选择了288个问题的测试集”。这个数据集(不包括用于微调开源LLM的训练集)也随着论文的发布被开源到了github上,以及用于生成报告的测试性能代码。

然而,Drori教授却删除了这个项目。

他们目前针对此发布了该测试集的注释副本:

https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70wp3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit#gid=1598949010

三人也表示,他们确信这个文件代表了论文中分析的测试集,因为评估代码中所有数据的文件路径都指向它,没有提供任何修改其内容的代码,而且在最初发布的GitHub仓库中也是可用的。此外,该文件也满足论文中规定的所有模式要求。

这些证据似乎非常有力地支持了一个主张,那就是,这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话,证明的责任在于作者公开发布这个数据和用它做的所有分析。

于是,他们开始检查各个数据点。

很快就发现,数据集中至少有10个问题是无法用提供的信息解决的,也就是说,根本不可能出现满分的情况。除此之外,还有几个问题在这个给出的背景下根本就不是有效的问题,这样的题目至少占了4%。

除了问题本身存在争议外,他们还发现,在所检查的288个问题中,有14个是重复的,在这些情况下,问题串之间的唯一区别是极小的字符级噪音,或者完全相同。

鉴于此,GPT-4能够获得满分不得不令人怀疑。得出这样的结果要么是在某个阶段将解决方案泄露到了提示中,要么是问题没有被正确评python分。

这也促使他们进一步调查。最终发现,其实两边都占了。

它在演示一种更高级的“作弊”

在这里,还需要简单解释一下论文中提到的的“小样本示例”(few-shot examples)。简而言之,研究人员对OpenAI嵌入的数据集内的类似问题进行余弦相似度搜索,并将这些问题和解决方案作为额外的背景纳入模型的提示,以帮助模型解决问题。这本身没什么问题,只要给出的例子和问题存在足够大的差异,以便不暴露不公平信息。

但是在随机扫描已发布的测试数据集时,他们注意到一些奇怪的事情。许多提供给模型的小样本示例几乎与问题本身一字不差,这种重叠情况可以用柱状图来表示:

也就是说,模型得到的是问题的答案或与问题非常相似的问题。通常情况下,这来自于很多有类似背android景的问题被反复提问。

在他们看来,为了正确评估GPT的解题能力,“多部分问题”(multi-part questions)的其他部分应该被完全排除在某一问题的小样本示例外。事实上,他们还发现,这些多部分问题的解决方案往往直接提到或给出模型被要求解决的另一部分问题的解决方案。

而在评分上,根据开源的打分机制中,他们也发现了一些问题。

比如流程是如何处理分级的。事实上,研究人员是利用GPT-4来打分的,包括原始问题、解决方案,和GPT自己的答案,作为分级提示的参数。

在其他技术领域,GPT更有可能出现隐性误解,这种自动评分也就更有可能出现自我安慰的结果。

此外,虽然prompt级联是最近许多GPT论文中常见的技术,但这里有大量数据泄漏的可能性。每一级不仅提供基于基础事实的二元信息,而且还在prompt,直到达到正确答案。

虽然这些创建的prompt没有看到实际的解决方案,但重新prompt正确答案直到达到正确答案的二进制反馈是足够的,尤其是在占测试集16%的多选题中,无限的尝试保证了正确的答案。

这就好比有人拿着答题纸告诉学生他们是否得到了正确的答案,直到他们得到答案。

在戳破这层假象后,他们在数据集上完成了零样本GPT-4的运行,对数据的前30%进行了手动评分,结果与原论文可以说是“天壤之别”。

语言模型还不能被当作产生基础真理的神谕

最后,三人表示,他们目前提出的问题只是几个小时的审查中发现的最明显的问题,后期随着更多人更仔细的检查,会发现更多的漏洞。

他们也鼓励读者下载数据集,自己检查,毕竟只有通过了同行评估,才能得到最终肯定。

同时,他们也写到,他们对数据分析方法的完javascript整性的观察是令人担忧的。这篇论文道出了最近人工智能研究的一个更大趋势:随着该领域的进展越来越快,研究时间线似乎在缩短,这其中就不可避免地存在走捷径的行为。

一个特别令人担忧的趋势是使用像GPT-4这样基于语言的模型来评估一个模型的准确性的技术。虽然它是一个有用的工具,但结论绝不应该被夸大,也不应该被当作地面真理。

最近有论文就写到,如果没有准确的真实信息,GPT-4的验证并不可靠。至少,应该选择一个随机的数据集子集,将GPT-4的性能与人类的对应物进行比较。语言模型还不能被当作产生基础真理的神谕。

此外,在使用数据之前,无论是用于训练、推理、基准测试还是其他方面,重新评估每一个数据点并进行基本的理智检查是极其重要的。鉴于有关数据集的规模较小,简单的人工验证很容易在工作范围内完成。

有网友在推特上打趣地说到,“这是LLM和作者推荐必吃的甜点,如果你赶时间,让GPT-4预测以下哪种味道最好”。

看来,关于GPT的相关研究和衍生风波,都还会持续再刮一阵子。

相关报道:

httpjavascripts://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864#c49f4b29e01745de9bf1ffdf2170b067

关键词:

当前观点:GPT-4满分通过MIT本科数学考试,却遭同门质疑“作弊”,数据集本身就有问题

这两天,相信大家都被GPT-4满分轻松拿下MIT本科数学考试的事儿给刷屏了2023-06-19

北京汽车喜迎618“年中大秀”,七店盛大开业服务力再提升

本次开业的7家门店覆盖多个区域,将通过硬件和软件的双重赋能,进一步2023-06-19

虽然他断然拒绝了勇士的试训邀请,但是勇士还是对他很感兴趣? 世界速讯

手握首轮第15号签的亚特兰大老鹰对于莱弗利同样很感兴趣,如果勇士不打2023-06-19

天天快播:亿华通与欧洲TAM签约 共同推动氢燃料电池汽车市场发展

6月17日,亿华通与欧洲商用车企业TAM-EUROPED O O (简称TAM)签订战略2023-06-19

【世界报资讯】烟台港西港区LNG长输管道工程项目开工 年输气能力230亿立方米

大小新闻客户端6月19日讯(YMG全媒体记者童佳怡)6月18日上午,随着山2023-06-19

当前视点!哈密市举办“倾听儿童 相伴成长”主题演讲比赛

中新网新疆新闻6月16日电(罗洁王一川)5月20日-6月20日,是第十二个全2023-06-19

2023春季福建莆田市城厢区教育局关于开展中小学教师资格认定体检工作补充公告 当前热议

点击查看>>>2023春季福建莆田市城厢区教育局关于开展中小学教师资格认2023-06-19

佳能800d单反相机参数_佳能800d单反相机教程

1、基本使用方法:装上存储卡和电池,取下镜头盖,把镜头上的AF MF对焦2023-06-19

win11系统运行时间怎么看

有些win11用户想要查看自己的系统运行时间,但是不知道怎么操作,其实2023-06-19

helen和闫彬(helen)

导读1、C试题分析:考查情态动词用法。2、Shall表示将来时,或者表示命2023-06-19

时隔7年!沙特外长对伊朗进行“具有里程碑意义的访问”

综合报道,当地时间17日,沙特外交大臣费萨尔访问伊朗首都德黑兰2023-06-19

6月25日8:00,高考成绩发布 湖北日报客户端和微信公众号可查询

6月25日8:00,高考成绩发布湖北日报客户端和微信公众号可查询---湖北2023-06-19

每日视讯:离岸人民币兑美元再度跌破7.15关口

近日,网传浙江一辆岚图追光就地自燃,让消防员都感到无力的是,涉事车2023-06-19

美媒发保罗表情包调侃:直到退役都无冠?这是官方的

美媒发保罗表情包调侃:直到退役都无冠?这是官方的,保罗,比尔,奇才,无2023-06-19

港股异动 | 法拉帝(09638)涨超3% 股价再创历史新高 今年累计大涨31%

法拉帝(09638)涨超3%,截至发稿,涨3 17%,报26港元,成交额155万港元2023-06-19

世界要闻:嫑怹的读音及意思

1、仁义礼智信“意思是仁爱、忠义、礼和、睿智、诚信。儒家“五常”,2023-06-19

环球今热点:没有服务员 没有收银员,全程自助,这样的店你喜欢吗

没有服务员没有收银员也没有店主压根没人看店开门、进店、选购扫码、付2023-06-19

父亲的“百年孤独”_天天速讯

万物萌发、草长莺飞的季节,也是各种疾病尤其是精神类疾病易发的时期2023-06-19

嘴唇会脱皮是什么原因_嘴唇脱皮是什么原因造成的

1 缺乏维生素:嘴唇干裂、脱皮往往与人们日常生活中缺乏新鲜蔬菜、B族2023-06-19

富国沪深300ESG基准ETF净值上涨1.06% 请保持关注 天天速递

金融界基金06月19日讯富国沪深300ESG基准ETF基金06月16日上涨1 02%,现2023-06-19

焦点速读:麻江县坝芒乡推进和美城乡建设工作观察之四|望得见安全 筑牢法治基础

山,翠绿苍茫;水,碧水荡漾。人,与善勤劳;村,和谐富美。自黔东南州2023-06-19

天天通讯!科技日报 :数实融合成为交通强国建设主线(图)

6月17日,记者从2023世界交通运输大会获悉,众多交通行业专家、企业代2023-06-19

南京金陵科技学院_金陵科技学院是几本|环球报资讯

1、金陵科技学院是二本。2、金陵科技学院坐落于六朝古都南京,是一所以2023-06-18

一度电可以烧开16斤水!国网湖北电力低碳行动助力打造绿色校园

极目新闻记者曹磊通讯员万悦肖珠珠涂坦“一度电可以制作7杯奶茶,一度2023-06-18

从“制造”到“智造”湖北建筑产业快步转型

今天(6月18日),湖北省智能建造产业协作联盟第一届理事大会暨城市数2023-06-18

滚动
资讯