GPT5 套着gpt2-chatbot的壳神秘上线？- 各项能力对比 & 免费试用

苦等许久，眼睁睁看着OpenAI放出很多GPT的小更新后，今天迎来了疑似新模型，更有可能是GPT5的信息！

一天不到的时间，一个名叫为“gpt2-chatbot”的神秘新大模型正在疯传。

在没有官方文档的情况下，它发布在了LMSYS 竞技场，跟gpt4和其他模型同台竞技。有人猜测它可能是 OpenAI 即将发布的模型。

首先，关于这个模型的讨论非常多，我这里整理了部分，并加上了我用同样的例子在GPT4运行后的对比。建议大家亲自尝试一下模型，看看跟GPT4有什么不同，后续揭晓更多细节后，我将会添加到这篇文章的留言中。

推理能力

gpt2-chatbot 展示了令人难以置信的推理能力。它还以更人性化的语气回答困难的人工智能问题。

Question：一公斤羽毛和一公斤铅哪个更重？

gpt2-chatbot回复：一公斤羽毛和一公斤铅的重量相同。铅的重量是一样的，都是一公斤。两者的主要区别关键在于它们的体积和密度：一公斤羽毛占据的空间更大，看起来大得多，而一公斤铅则小巧玲珑。这往往这往往会引出一个经典的技巧问题，但就重量而言，一千克就是一千克就重量而言，一公斤就是一公斤！

GPT4回复：一公斤羽毛和一公斤铅的重量相同，都是 1 公斤。区别在于它们的体积和密度。羽毛比铅占据更多的空间，因为它们密度较小。

看上去，这个例子gpt2-chatbot和GPT4打平

Feathers and Lead

数学技能

gpt2-chatbot 一次解决了国际数学奥林匹克（IMO）问题。

虽然它没有解决 IMO 测试中的所有问题，但仍然令人印象深刻。

gpt2-chatbot回复

Math Skills

GPT4回复

Math Skills

所以这一回合是谁赢了呢？有人猜测 gpt2-chatbot 是针对代理功能进行了调整。

编码能力

人工智能初创公司的工程师 Chase 证实，gpt2-chatbot 的编码能力比最新版本的 GPT-4 或 Claude Opus 更好。 “它在我们所有最难的编码提示上都比 GPT4 或 Claude Opus 表现更好”

Coding Ability

ASCII艺术技巧

gpt2-chatbot 在 ASCII 艺术中“领先于任何其他模型”

ASCII Art

但也有人质疑ASCII 艺术是从互联网上 1 比 1 复制的， gpt2 只是更擅长准确地回忆训练数据

那么，是谁发布了 gpt2-chatbot？

没有官方文件，也没有人知道。

下面是最多人赞同的两个推测性理论：

秘密发布的GPT-5：早期OpenAI可以对其进行基准测试
它是 2019 年 OpenAI 的 GPT-2，使用 assistant 数据集进行了微调

如果是后者，这意味着GPT最初的预训练效果非常强，在 4 年后经过微调就能比其他模型更好

GPT5 Speculations

如何免费试用

gpt2-chatbot 可以在 https://chat.lmsys.org 直接聊天获得。但目前现在有很多人尝试它，但响应时间很慢，并且每次对话最多 8 轮。

Free Trial

OpenAI官方反应

奥特曼刚刚发帖称他“对 gpt2 情有独钟” ，这是在暗示gpt5吗？

OpenAI Reaction

写在最后

OpenAI在宣布了GPT4记忆功能更新，GPT4不限次数，GPT3.5免注册后，就马不停蹄卷进了“GPT5”的风波。我个人觉得这次gpt2-chatbot很大概率是为新模型发布预热。

在一个月不到的采访当中，奥特曼也说过这个新模型（在采访中并没有称之为GPT5）将会在今年发布。

种种迹象表明

GPT5，真的来了！

GPT5 套着gpt2-chatbot的壳神秘上线？- 各项能力对比 & 免费试用

推理能力​

数学技能​

gpt2-chatbot回复​

GPT4回复​

编码能力​

ASCII艺术技巧​

那么，是谁发布了 gpt2-chatbot？​

如何免费试用​

OpenAI官方反应​