跳到主要内容

GPT5 套着gpt2-chatbot的壳神秘上线?- 各项能力对比 & 免费试用

苦等许久,眼睁睁看着OpenAI放出很多GPT的小更新后,今天迎来了疑似新模型,更有可能是GPT5的信息!

一天不到的时间,一个名叫为“gpt2-chatbot”的神秘新大模型正在疯传。

在没有官方文档的情况下,它发布在了LMSYS 竞技场,跟gpt4和其他模型同台竞技。有人猜测它可能是 OpenAI 即将发布的模型。

首先,关于这个模型的讨论非常多,我这里整理了部分,并加上了我用同样的例子在GPT4运行后的对比。建议大家亲自尝试一下模型,看看跟GPT4有什么不同,后续揭晓更多细节后,我将会添加到这篇文章的留言中。

推理能力

gpt2-chatbot 展示了令人难以置信的推理能力。 它还以更人性化的语气回答困难的人工智能问题。

Question:一公斤羽毛和一公斤铅哪个更重?

gpt2-chatbot回复:一公斤羽毛和一公斤铅的重量相同。铅的重量是一样的,都是一公斤。两者的主要区别 关键在于它们的体积和密度:一公斤羽毛占据的空间更大,看起来大得多,而一公斤铅则小巧玲珑。这往往 这往往会引出一个经典的技巧问题,但就重量而言,一千克就是一千克就重量而言,一公斤就是一公斤!

GPT4回复:一公斤羽毛和一公斤铅的重量相同,都是 1 公斤。区别在于它们的体积和密度。羽毛比铅占据更多的空间,因为它们密度较小。

看上去,这个例子gpt2-chatbot和GPT4打平

Feathers and Lead

数学技能

gpt2-chatbot 一次解决了国际数学奥林匹克(IMO)问题。

虽然它没有解决 IMO 测试中的所有问题,但仍然令人印象深刻。

gpt2-chatbot回复

Math Skills

GPT4回复

Math Skills

所以这一回合是谁赢了呢?有人猜测 gpt2-chatbot 是针对代理功能进行了调整。

编码能力

人工智能初创公司的工程师 Chase 证实,gpt2-chatbot 的编码能力比最新版本的 GPT-4 或 Claude Opus 更好。 “它在我们所有最难的编码提示上都比 GPT4 或 Claude Opus 表现更好”

Coding Ability

ASCII艺术技巧

gpt2-chatbot 在 ASCII 艺术中“领先于任何其他模型”

ASCII Art

ASCII Art

但也有人质疑ASCII 艺术是从互联网上 1 比 1 复制的, gpt2 只是更擅长准确地回忆训练数据

那么,是谁发布了 gpt2-chatbot?

没有官方文件,也没有人知道。

下面是最多人赞同的两个推测性理论:

  • 秘密发布的GPT-5:早期OpenAI可以对其进行基准测试
  • 它是 2019 年 OpenAI 的 GPT-2,使用 assistant 数据集进行了微调

如果是后者,这意味着GPT最初的预训练效果非常强,在 4 年后经过微调就能比其他模型更好

GPT5 Speculations

如何免费试用

gpt2-chatbot 可以在 https://chat.lmsys.org 直接聊天获得。 但目前现在有很多人尝试它,但响应时间很慢,并且每次对话最多 8 轮。

Free Trial

Free Trial

OpenAI官方反应

奥特曼刚刚发帖称他“对 gpt2 情有独钟” ,这是在暗示gpt5吗?

OpenAI Reaction

写在最后

OpenAI在宣布了GPT4记忆功能更新,GPT4不限次数,GPT3.5免注册后,就马不停蹄卷进了“GPT5”的风波。我个人觉得这次gpt2-chatbot很大概率是为新模型发布预热。

在一个月不到的采访当中,奥特曼也说过这个新模型(在采访中并没有称之为GPT5)将会在今年发布。

种种迹象表明

GPT5,真的来了!