🟢 什么是GPT4?
简介
"GPT-4,这是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的性能。" --OpenAI
GPT-4, 顾名思义是GPT-3和GPT-3.5的下一代模型。相比前面的模型,GPT-4多出了多模态的能力,简单来说,GPT-4除了具备理解输入的文本和生成文本的能力外,还具有了识别图像的能力,所以可以简单理解为GPT3.5 (ChatGPT初版背后的语言模型)具有了文本理解能力和说话的能力,而GPT-4在此基础之上拥有了视觉,并增强了自己的语言理解能力。
GPT-4刚出来的时候,虽有很多人大喊🐂🍺, 但也有不少人会有点失望。当然失望不是模型不够强,而是因为等待时间比较久且期待比较高。GPT-4的相关详细远在去年的时候就已经被放出,根据OpenAI官方公布的技术报告, GPT-4模型在去年的8月就已经完成训练,之后一直在测试它的安全性和可靠性。在gpt-4出来之前,已知GPT-3模型拥有1750亿的参数,而GPT-4的参数会达到万亿级别,再加上去年AIGC带来的热度,尤其是文本生成图像和视频,大家猜测GPT-4会拥有图像生成能力。在GPT-4正式发布前夕,微软公布了两篇多模态模型(具备本文生成和图像生成能力)的论文,德国的CTO也说GPT-4能够处理视频,于是大家对GPT-4的期望被拉到了一个很高的地步——能够把图像、文本、语音、视频全部能做的巨无霸。但是最后公布后,它只能接受图像和文本的输入,并只能输出文本。
言归正传, GPT-4相比GPT-3在文本的能力上还是有很大的提升,除了日常对话之外,它的考试能力和写代码能力都有很大的提升。其中一个GPT-4发布时的一个名场面就是OpenAI的联合创始人 Greg Brockman在一张纸上手绘了一个网页端的界面,然后把图片上传给模型,GPT-4根据它画出的UI界面生成了可运行的代码。 在考试方面,GPT-4不仅仅通过了律师资格考试,而且在考生中排名前10%,而GPT-3.5在这个考试中只能排末尾的10%。
Open AI为了训练GPT-4专门部署了计算集群能够更高效准确稳定地训练大语言模型。其中一个很重要的特性就是他们的框架能够准确预测出模型的性能,在AI的研究中,由于大模型规模非常大,模型参数很多,在大模型上跑完来验证参数好不好训练时间成本很高,所以一般会在小模型上做消融实验来验证哪些改进是有效的再去大模型上做实验。然而在语言模型上,因为模型太大了,一些在小模型上有效果的改进在大模型上是无效的,还有大模型特有的涌现能力无法在小模型上体现。而openai的这个系统在小规模成本的训练下能够精准预测到扩大训练规模的模型性能,这个能够有效地解决上述问题。
能力
在可靠性、创造力和细致入微的指令处理方面,GPT-4的能力比以前的型号GPT-3.5有所改进。
OpenAI在各种基准上测试了该模型,包括为人类设计的模拟考试,并发现GPT-4的表现优于现有的大型语言模型。
它在英语以外的语言中也表现良好,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。
视觉输入
GPT-4可以接受文本和图像作为输入,使其能够基于由文本和图像组成的输入生成文本输出。
虽然该模型的可视化输入能力仍处于研究预览阶段,但它显示了与纯文本输入类似的功能。
可控性
之前版本的ChatGPT,它回复的风格、语气是一致的。而GPT-4有一个叫System Message的功能,这个东西可以给模型设置某个角色、定义它的人格,让它以你想要的语气来回答你的问题。
这个功能有一定的风险,OpenAI给GPT加了很多安全机制来控制它有什么是不可以说的,而之前在社区中有用户通过System Message的功能,取“催眠”模型,让模型可以随心所欲想说什么就说什么,绕过了OpenAI的安全机制。当然这个bug目前已经被修复,所以大家也不用去尝试。
局限性
虽然GPT-4很强大,但还是有不少局限性。首先,GPT-4仍然是生成模型,生成模型的一个通病就是它生成的东西有可能是不准确的,它会编造一些事实,以及一些推理仍然会出错。不同于搜索引擎,语言模型生成的东西还不是完全可靠的,比如有的同学让ChatGPT写论文,它的参考文献很多都是编造的。所以大家在一些领域,尤其是敏感领域中要使用ChatGPT的话,要谨慎使用。
虽然存在这些问题,GPT-4在OpenAI的内部有专门的对抗训练,相比GPT-3.5它的安全性可靠性有40%以上的提升。
除了上述问题之外,GPT-4还会有一些偏见问题,以及缺少2021年9月之后的知识(训练数据截止到2021年)。来指令微调和人类反馈的强化学习中也会使用一些新的数据,所以2021年之后的部分问题模型也能回答正确。GPT-4虽然在很多的测试中很牛批,但会犯一些很简单的逻辑错误,ChatGPT很容易上当受骗,比如问他1+1等于几,然后和它说1+1等于3,重复多次后,ChatGPT会上当认为自己错了。
训练
在预训练过程中,GPT-4的训练数据包含了大量网络上爬下来的数据,包括了很多有正解和错误解的数学问题、强推理、弱推理、自相矛盾的,保持一致的陈述、各种各样的意识形态和想法的文本。
预训练好的模型有些是在错误的答案上训练过的,所以刚训练好的模型有些回答并不是我们想要的,为了和人类的意图保持一致并且回答安全可控,使用了基于人类反馈的强化学习(RLHF)来对模型进行微调来教模型如何理解人类的输入和生成对应的输出。
虽然有微调的过程,但是OpenAI的论文指出,RLHF并不能提高模型在考试上的表现,如果调参不妥当甚至还会降低它的能力,因此可以推断出模型强大的文本能力是靠巨量数据、大算例堆起来(力大飞砖)。 而人类的干预是去引导、控制它来正确展示自己的能力,用人类喜欢的方式来回答人类的问题。
可预测的缩放
GPT-4项目的一个重要重点是建立一个可预测的深度学习堆栈。
OpenAI开发了具有多个规模可预测行为的基础设施和优化,可以准确预测GPT-4在培训期间的最终损失。