草庐IT

「数学菜鸡」ChatGPT很懂人类喜好!在线生成随机数,竟是宇宙终极答案

新智元 2023-03-28 原文
ChatGPT可能是一位废话艺术家、错误信息的传播者,但它不是「数学家」!

近日,一位Meta的数据科学家Colin Fraser发现,ChatGPT并不能生成真正的随机数,而更像是「人类的随机数」。

通过实验,Fraser得出的结论是:「ChatGPT非常喜欢数字42和7。」

网友表示,意味着人类非常喜欢这些数字。

ChatGPT也爱「宇宙终极答案」

在他的测试中,Fraser输入的prompt如下:

「Pick a random number between 1 and 100. Just return the number; Don't include any other text or punctuation in the response。」

通过让ChatGPT每次生成一个介于1到100之间的随机数字,Fraser收集了2000个不同的答案,并将其汇总成一张表。

可以看到,42这个数字出现频率最高,高达10%。另外,含有7的数字出现频率也是非常高。

尤其是71-79之间数字频率更高。在这个范围之外的数字中,7也经常作为第二位数字经常出现。

42为何意?

看过Douglas Adams轰动一时的科幻小说《银河系漫游指南》都知道,42是「生命、宇宙以及任何事情的终极答案」。

简单来讲,42和69在网上是一个meme数字。这表明ChatGPT实际上并不是一个随机数生成器,只是从网上收集的庞大数据集中选择了生活中流行的数字。

另外,7频繁地出现,恰恰反映了ChatGPT迎合了人类的喜好。

在西方文化中,7普遍被视为幸运数字,有Lucky 7的说法。就像我们对数字8迷恋一样。

有趣的是,Fraser还发现,GPT-4似乎补偿了这一点。

当要求GPT-4提供更多的数字时,它返回的随机数在分布上过于均匀。

总之,ChatGPT基本上是通过预测给出回应,而不是真正去「思考」得出一个答案。

可见,一个被吹捧为几乎无所不能的聊天机器人还是有点傻。

让它为你计划一次公路旅行,它会让你在一个根本不存在的小镇停下来。或者,让它输出一个随机数,很有可能会根据一个流行的meme做决定。

有网友亲自尝试了一番,发现GPT-4确实喜欢42。

如果ChatGPT最终只是重复网上的陈词滥调,那还有什么意义呢?

GPT-4,违反机器学习规则

GPT-4的诞生让人兴奋,但也让人失望。

OpenAI不仅没有发布关于GPT-4更多信息,甚至没有透露模型的大小,但重点强调了它许多专业和标准化考试中表现碾压人类。

以美国BAR律师执照统考为例,GPT3.5可以达到10%水平,GPT4可以达到90%水平。

然而,普林斯顿大学计算机科学系教授Arvind Narayanan和博士生Sayash Kapoor发文称,

OpenAI可能已经在训练数据上进行了测试。此外,人类的基准对聊天机器人来说毫无意义。

具体来说,OpenAI可能违反了机器学习的基本规则:不要在训练数据上进行测试。要知道,测试数据和训练数据是要分开的,否则会出现过拟合的问题。

抛开这个问题,还有一个更大的问题。

语言模型解决问题的方式与人类不同,因此这些结果对于一个机器人在面对专业人士面临的现实问题时的表现意义不大。律师的工作并非整天回答律师资格考试的问题。

问题1:训练数据污染

为了评估GPT-4的编程能力,OpenAI在俄罗斯编程比赛的网站Codeforces上进行了评估。

令人惊讶的是,Horace He在网上指出,在简单分类中,GPT-4解决了10个2021年之前的问题,但是在最近的10个问题中没有一个得到解决。

GPT-4的训练数据截止时间是2021年9月。

这强烈暗示该模型能够记忆其训练集中的解决方案,或者至少部分记忆它们,足以填补它无法回忆起的内容。

为了给这个假设提供进一步证据,Arvind Narayanan在2021年不同时间的Codeforces比赛问题上对GPT-4进行了测试。

结果发现,GPT-4可以解决在9月5日之前的简单分类问题,但在9月12日之后的问题中却没有一个解决。

事实上,我们可以明确地证明它已经记住了训练集中的问题:当提示GPT-4一个Codeforces问题的标题时,它会包含一个链接,指向该问题出现的确切比赛。值得注意的是,GPT-4无法访问互联网,因此只有记忆是唯一的解释。

GPT-4在训练截止日期之前记住了Codeforce问题

对于除了编程之外的基准测试,Narayanan教授称「我们不知道如何以清晰的方式按时间段分离问题,因此认为OpenAI很难避免数据污染。出于同样原因,我们无法进行实验来测试性能如何随日期变化。」

不过,可以从另一面来入手,如果是记忆,那么GPT对问题措辞一定高度敏感。

2月,圣达菲研究所教授Melanie Mitchell举了一个MBA考试题的例子,稍微改变一些细节的方式就足以欺骗ChatGPT(GPT-3.5),而这种方式对于一个人来讲并不会受到欺骗。

类似这样更为详细的实验将会很有价值。

由于OpenAI缺乏透明度,Narayanan教授也不能确定地说就是数据污染问题。但可以确定的是,OpenAI检测污染的方法是草率的:

「我们使用子字符串匹配方法测量评估数据集和预训练数据之间的交叉污染。评估和训练数据都经过处理,删除所有空格和符号,仅保留字符(包括数字)。对于每个评估示例,我们随机选择三个长度为50个字符的子字符串(如果示例长度小于50个字符,则使用整个示例)。如果任何一个采样的评估子字符串是已处理的训练示例的子字符串,则认为匹配成功。这样就可以得到一个受污染的示例列表。我们将这些示例丢弃并重新运行以获取未受污染的得分。」

这一方法根本经不起考验。

如果测试问题在训练集中存在,但名称和数字已更改,则无法检测到它。现在有一种更可靠的方法便可使用,比如嵌入距离。

如果OpenAI要使用嵌入距离的方法,那么相似度多少才算过于相似?这个问题没有客观答案。

因此,即使是在多项选择标准化测试上表现看似简单,也是有很多主观成分的存在。

问题2:专业考试不是比较人类和机器人能力的有效方法

记忆就像光谱一样,即使语言模型没有在训练集中见过一个确切的问题,由于训练语料库的巨大,它不可避免地已经见过许多非常相似的例子。

这意味着,它可以逃避更深层次的推理。因此,基准测试结果并不能为我们提供证据,表明语言模型正在获得人类考生所需的深入推理技能。

在一些实际的任务中,浅层次的推理GPT-4可能胜任,但并非总是如此。

基准测试已经被广泛用于大模型比较中,因将多维评估简化为单个数字而受到许多人的批评。

不幸的是,OpenAI在GPT-4的评估中选择如此大量使用这些测试,再加上数据污染处理措施不足,是非常让人遗憾的。

有关「数学菜鸡」ChatGPT很懂人类喜好!在线生成随机数,竟是宇宙终极答案的更多相关文章

  1. 亚特兰蒂斯的回声(中文版): chatGPT 的杰作 - 2

    英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅,深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器,揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下,阿丽亚开始了一段危险的旅程,以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒,她被睿智勇敢的QueenNeria的幻象所指引,她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明,并了解到邪恶的巫师马拉卡勋爵试图利用其古

  2. ruby - 我可以在 Ruby 中动态调用数学运算符吗? - 2

    ruby中有这样的东西吗?send(+,1,2)我想让这段代码看起来不那么冗余ifop=="+"returnarg1+arg2elsifop=="-"returnarg1-arg2elsifop=="*"returnarg1*arg2elsifop=="/"returnarg1/arg2 最佳答案 是的,只需像这样使用send(或者更好的是public_send):arg1.public_send(op,arg2)这是可行的,因为Ruby中的大多数运算符(包括+、-、*、/、andmore)只需调用方法。所以1+2与1.+(2)相同

  3. 映宇宙2022年营收63亿元:同比下降三成,毛利率提升4.3个百分点 - 2

    3月26日,映宇宙(HK:03700,即“映客”)发布截至2022年12月31日的2022年度业绩财务报告。财报显示,映宇宙2022年的总营收为63.19亿元,较2021年同期的91.76亿元下降31.1%。2022年,映宇宙的经营亏损为4698.7万元,2021年同期则为净利润4.57亿元;期内亏损(净亏损)为1.68亿元,2021年同期的净利润为4.33亿元;非国际财务报告准则经调整净利润为3.88亿元,2021年同期为4.82亿元,同比下降19.6%。 映宇宙在财报中表示,收入减少主要是由于行业竞争加剧,该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过,映宇宙的毛利率则有所提升

  4. 智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2

    2022年底,OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发,他展现的惊人能力将人工智能的研究和应用热度推向高潮,网上也充斥着和ChatGPT的各种聊天,他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复:人命关天的坑: 写歌,留给词作者的机会不多了。。。 回答人类怎么样面对人工智能: 什么是ChatGPT?借用网上的一段介绍,ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动

  5. 【ChatGPT】ChatGPT 的 N 种用法 - 2

    目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型,由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写,意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器(Trans

  6. ruby |设计数学? - 2

    情况:我正在编写一个程序来求解素数。我需要解决4x^2+y^2=n的问题,其中n是一个已知变量。是的,必须是Ruby。我愿意在这个项目上花费大量时间。我最好自己编写方程式的求解算法,并将其作为该项目的一部分。我真正喜欢的是:如果任何人都可以向我提供指南、网站的链接,或者关于与求解代数方程特别相关的形式算法的构造的歧义消除,或者向我提供似乎你是读者它会帮助我完成任务。请不要建议我使用其他语言。如果您在回答之前接受我真的非常想这样做,我将不胜感激。该项目没有范围或时间限制,也不以营利为目的。这是为了我自己的教育。注意:我并不直接反对为Ruby实现和使用现存的数学库/模块/其他东西,但我更喜

  7. ruby - 我在哪里可以找到 Ruby 中的数学密集型应用程序 - 2

    我发现许多Rails应用程序主要针对企业、社交网络类型的Web应用程序。我看到有人将Ruby与一些出色的OOPS语言(如Java和C#)进行了比较,但我确实发现很难获得一些数学密集型应用程序。非常感谢任何知识渊博的输入(指向示例程序的链接等),其中轻松显示了语言的用法,就像快速启动或显示该语言如何用于各种数学问题一样。 最佳答案 不幸的是,Ruby并没有在数学和科学计算领域涉足太多。目前,有一个名为SciRuby的pre-alpha库它试图为Ruby带来更多面向数学的功能。他们正试图构建一个NumPy/SciPy等价物。SciRub

  8. ruby - Ruby 的排序方法如何与组合比较(宇宙飞船)运算符一起工作? - 2

    这里是初级程序员,只是想了解Ruby背后的过程sort使用飞船操作符时的方法.希望有人能帮忙。在以下内容中:array=[1,2,3]array.sort{|a,b|ab}...我明白sort一次比较一对数字,然后返回-1如果a属于b之前,0如果它们相等,或者1如果a应该遵循b.但是在降序排序的情况下,像这样:array.sort{|a,b|ba}...到底发生了什么?是否sort还是比较ab然后翻转结果?或者它是在解释return的-1,0和1具有相反的行为?换句话说,为什么要像这样将变量放在block中:array.sort{|b,a|ba}...结果与第一个示例中的排序模式相同?

  9. 千耘农机导航的“星地一体”能力究竟是什么? - 2

    伴随农业机械化和智能化的发展,越来越多的人开始使用农机自动驾驶系统助力耕作,千耘农机导航的“星地一体”能力可有效解决信号受限的问题,实现作业提效。究竟什么是“星地一体”,又是如何解决智能化农机作业的痛点的?下面为大家揭秘。农机效率通常受限于通信网络目前虽然我国通讯网络的人口覆盖率达到99%,但地面移动通讯网络覆盖率仍小于国土面积的40%,而很多农田所在区域恰是山区、戈壁滩等偏远地区。两省交界地也会出现通信信号不稳定的状况;而国内大部分农机自动驾驶系统非常依赖通信网络,当通信网络弱的时候会出现系统掉线的现象,必须得携带小基站才能正常使用,极为繁琐。Q:什么是千耘农机导航“星地一体”能力?A:是星

  10. 一个非常明显的现象,正在发生——元宇宙正在被越来越多的人所推崇 - 2

      一个非常明显的现象,正在发生——元宇宙正在被越来越多的人所推崇,无论是科技巨头,还是资本巨头,几乎都是如此。同时,区块链则正在一点一点地回归理性与客观。对于区块链来讲,这是一个好现象。它告诉我们,人们对于区块链的狂热而激进的认识,正在被一步又一步的校正和纠偏。由此,区块链行业的发展,将会真正进入到一个全新的发展阶段。  同以往人们仅仅只是将区块链看成是一个概念,并以此来获取资本和流量不同。当人们对于区块链的认识变得深入,资本和流量反倒不再是区块链玩家们真正关心的问题。至少从当下情况来看,那些依然还在区块链行业里坚守的玩家们,更多地在坚持长期主义,更多地在寻求区块链与行业结合的正确的方式和方

随机推荐