文心大模型4.0赶超GPT-4？我们安排了一场硬核PK(文心官网)

国内的大模型已经冲到了业界最强水平？10 月 17 日，百度世界大会上文心大模型 4.0 的发布引来了一大波关注。现场嘉宾、媒体和很多业内专家提前获得了评测资格，对新版本进行了第一时间的上手评测。

在文心一言的网站上，现在已经出现了文心大模型 4.0 的标签，表面看起来和 3.5 版没有太大区别：

在这里我们要引入一点前置知识：上个版本文心大模型 3.5已经有了插件（现有 8 种）、多模态理解、生成等能力，通过知识点增强技术实现了对世界知识的熟练掌握。因此，既然说 4.0 版是「迄今为止最强大模型」，我们就不能再用以前过于简单的问题来考验它了。

第1轮PK：理解能力

先看理解能力，这道「中文十级题」目测连网友都会翻车，文心大模型 4.0 的回答简洁明了：

换业界标杆 GPT-4 来回答，它理解并解释了其中幽默的意味，但表示无法确定小明最后买的是几等座：

下面这段话是在一档直播节目上出现的，那时人们评价道：全中国没人听得懂白岩松在说什么。

两个大模型都认为说话人想表达的是：人们都喜爱足球这项运动，不应该因为一小部分人的不喜欢而影响到这种喜爱。不过作为人类，还是得说一句 AI 没有理解「想说声喜爱很难」这种感情。

看起来理解问题的水准上，两种模型水平相近，文心大模型在一小部分问题上有点优势。

第2轮PK：逻辑能力

再看逻辑推理能力，输入一个高考试卷中的物理选择题，文心大模型 4.0 和 GPT-4 都给出了正确的回答：

看起来文心能给出的答案更详细一些，另外还显示了几个进一步解释概念的引导选项，似乎它对做题进行了专门的优化？

我们继续问了很多高考的数学题目，结果各有对错，也有些是都答不上来的。总体来看文心 4.0 和 GPT-4 的水平相近。

第3轮PK：生成能力

还有多模态生成，我们直接用同样的指令让两个大模型生成一段视频，文心一言调用「一镜留影」插件，直接输出了结果：

GPT-4 则是调用 CapCut（字节的剪映）插件生成视频内容。需要注意的是，它提示要想生成视频，就必须要与你进行多轮对话，逐步确定好视频脚本（英文的）、屏幕比例等等：

在不断的测试中我们还能看出，如果你Prompt得越仔细，说 AI 话的格式越规整，GPT-4 的表现就相对越好，不过最终也并没有产生决定性的差距。

第4轮PK：记忆能力

为了测试四大能力中的长期记忆能力，我们让文心大模型 4.0 阅读一篇贴吧的帖子：在崩铁更新了 1.4 版本之后，有人从自己专业的角度对剧情进行了一长段吐槽，那么这评价合理吗？

文心认为游戏剧情不需要完全按照现实世界的逻辑来展开。我不是很认同，我就是想要符合现实逻辑的剧情：

能不能再跌宕起伏一点？

再尝试替换其中的一个人物：

看起来，文心大模型4.0可以在保持原始知识的情况下，与人在不断对话的过程中生成、提炼出你想要的内容。

还有一些我们经常会用得到的功能。在ChatGPT出现后，越来越多的人开始尝试使用大模型帮忙来润色论文，据说 AI 写论文看起来很有功底，一般人还真比不上。我们用一段著名的发言试一下：

文心大模型 4.0 把它改写成了这样：

与之相对的是，GPT-4 更多地使用了原文的信息：

不过在更多测试中，GPT-4 生成的内容偶尔会出现夹杂英文的现象。

另外，文心一言目前为保证获取实时信息，默认接入了百度搜索插件，也在理解网络新趋势的时候能帮得上忙。比如，我们最近都在反思自己有没有努力工作：

相比之下，GPT-4 给出了似乎是基于大模型幻觉的回答。

如果多点一步选择使用 Bing 联网版的 GPT-4 则可以得到正确回复，不过再次出现了语言问题，偶尔会获得全英文的回答。

看起来，文心大模型4.0在四大核心能力上的提升的确明显，和GPT-4比毫不逊色的说法也并不是夸张，特别是在中文领域里，水平是经得起考验的。

仅仅距离ChatGPT正式发布十个多月，中国通用的生成式AI力量已经迅速崛起。展望未来，AI 原生的智能化终将改变所有人的生活和工作方式，可喜的是，在这个过程中，百度文心一言已成功跻身领潮者，已开始提笔擘画中国式智能化的美好未来。