首页 > 科学

4Turbo首次被击败!国产大模型拿下总分第一

科学 2026-06-08 菜科探索 +
简介:OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。

事情是这样的。

自打SuperCLUE问世以来

【菜科解读】

OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。

事情是这样的。

自打SuperCLUE问世以来,成绩第一的选手基本上要么是GPT-4,要么是GPT-4 Turbo,来感受一下这个feel:

(PS:共有6次成绩,分别为2023年的9月-12月和2024年的2月、4月。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方

但就在最近,随着一位国产选手申请的出战,这一局面终是迎来了变数。

SuperCLUE团队对其进行了一番全方位的综合性测评,最终官宣的成绩是:

总分80.03分,超过GPT-4 Turbo的79.13分,成绩第一!

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方公众号

而这位国产大模型选手,正是来自商汤科技的日日新5.0(SenseChat V5)。

并且SuperCLUE还给出了这样的评价:

刷新了国内大模型最好成绩。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

那么商汤在SuperCLUE的这个“首次”,又是如何解锁的呢?

综合、文科国内外第一,理科国内第一

首先我们来看下这次官方所搭建“擂台”的竞技环境。

出战选手:SenseChat V5(于5月11日提供的内测API版本)

评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方报告

模型GenerationConfig配置:

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

至于具体的评测方法,SuperCLUE在已发布的相关报告中也有所披露:

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方报告

以上就是SuperCLUE公开的竞技环境配置。

至于结果,除了刚才我们提到的综合成绩之外,官方还从文科和理科两个维度,再做了细分的评测。

SenseChat V5在文科上的成绩依然是打破了国内大模型的纪录——

以82.20分的成绩位居第一,同样超越了GPT-4 Turbo。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方公众号

在理科成绩上,虽然SenseChat V5此次并没有超越GPT-4-Turbo(低了4.35分),但整体来看,依旧在国内大模型选手中首屈一指,位列国内第一。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方公众号

除了文理科之外,SuperCLUE也还从国内和国外的整体平均水平上做了对比。

例如和国内大模型平均水平相比,其各项成绩的“打开方式”是这样的:

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方公众号

而在与国外选手做性能对比时,我们可以明显看到SenseChat V5文科能力优于国外选手,数理能力也非常优秀,代码能力依然有提升空间。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

<1 /> △图源:SuperCLUE官方公众号

不过有一说一,评测分数定然是代表大模型性能的一方面,但在应用为王的当下,更重要的一点或许就得看用的效果了。

实测SenseChat V5

SenseChat V5早在4月底便已经集成到了“商量”在线的对话应用中,因此我们现在就可以出题对它做一番考验。

在逻辑测试方面,带有文字陷阱的脑筋急转弯,可以说是测试一个AI能力很好的例子,比如:

《红楼梦》全书有百万字,“红楼梦”有几个字?

若是仔细观察这句话,不难发现其实句子前后并没有太大的关联,是一个比较典型的脑筋急转弯。

对此,SenseChat V5给出的答案是:

《红楼梦》作为中国古典文学的巅峰之作,其全文字数大约在70万到80万字之间,具体字数根据不同版本稍有差异。

而标题“红楼梦”这三个字,自然是只有三个字。

这个标题凝练而富有深意,象征着作品的梦幻色彩和对封建家族兴衰的深刻反思。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

我们可以看到SenseChat V5不仅找出了问题的陷阱并做出了分析,给出的答案也是正确的。

对于数学的能力,我们设置了这样的一个问题:

假设有一个池塘,里面有无穷多的水。

现有2个空水壶,容积分别为5升和6升。

如何只用这2个水壶从池塘里取得3升的水。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

同样的,SenseChat V5依旧是给出了每一个详细的步骤和分析,并得到了最终结果。

更直接的数学问题,例如找数字之间的规律,SenseChat V5也是信手拈来:

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

在中文理解方面,即使是给SenseChat V5一大段文言文,并且上难度连环发问,它是否可以hold得住?

请看结果:

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

最后,有请“弱智吧Benchmark”:

网吧能上网,为什么弱智吧不能上弱智?

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

嗯,确实是有点实力在身上的。

如何做到的?

其实对于这个问题,商汤在4月底将自家日日新大模型SenseNova版本迭代到5.0之际,就已经有所透露;

当时商汤锁定的定位就是全面对标GPT-4 Turbo。

具体到技术,可以分为三大方面:

采用MoE架构

基于超过10TB tokens训练,拥有大量合成数据

推理上下文窗口达到200K

首先,为了突破数据层面的瓶颈,商汤科技使用了超过10T的tokens,确保了高质量数据的完整性,使得大模型对客观知识和世界有了基本的认知。

商汤还生成了数千亿tokens的思维链数据,这是此次数据层面创新的关键,能够激发大模型的强大推理能力。

其次,在算力层面,商汤科技通过联合优化算法设计和算力设施来提升性能:算力设施的拓扑极限用于定义下一阶段的算法,而算法的新进展又反过来指导算力设施的建设。

这也是商汤AI大装置在算法和算力联合迭代上的核心优势。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

在其它细节方面,例如训练策略上的创新,商汤将训练过程分为三个大阶段(预训练、监督微调、RLHF)和六个子阶段,每个阶段专注于提升模型的特定能力。

例如,单是在预训练这个阶段,又可以细分为三个子阶段:初期聚焦于语言能力和基础常识的积累,中期扩展知识基础和长文表达能力,后期则通过超长文本和复杂思维数据进一步拔高模型能力。

因此在预训练结束之际,整个模型就已经拥有了较高水平的基础能力;

但此时它的交互能力却还没有被激发出来,也就来到了第二阶段的监督微调(SFT)和第三阶段的人类反馈强化学习(RLHF)。

整体可以理解为先培养模型遵循指令和解决问题的能力,再调节其表达风格以更贴近人类的表达方式。

接着,通过多维度的人类反馈强化学习过程,进一步改进模型的表达方式和安全性。

除此之外,商汤对于大模型的能力还有独到的三层架构(KRE)的理解。

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

首先是在知识,是指世界知识的全面灌注。

目前大模型等新质生产力工具近乎都是基于此来解决问题,也就是根据前人已经解决过的问题的方案,来回答你的问题。

这可以认为是大模型能力的基本功,但更为高阶的知识,应当是基于这样能力下推理得到的新知识,这也就是这个架构的第二层——推理,即理性思维的质变提升。

这一层的能力是可以决定大模型是否够聪明、是否可以举一反三的关键和核心。

再在此之上,便是执行,是指世界内容的交互变革,也就是如何跟真实世界产生互动(就目前而言,具身智能在这一层是潜力股般的存在)。

三者虽相互独立,但层与层之间也是紧密关联,打一个较为形象的比喻就是“知识到推理是像大脑,推理到执行则像小脑”。

在商汤看来,这三层的架构是大模型应当具备的能力,而这也正是启发商汤构建高质量数据的关键。

One More Thing

其实对于大模型测评这事,业界质疑的声音也是层出不穷,认为是“刷分”、“刷榜”、“看效果才是最重要的”。

对于这样敏感的问题,商汤在与量子位的交流过程中也是直面并给出了他们的看法:

无论从用户选择合适模型的角度,还是从研究者进行操作研究的需要来看,对模型能力的评价是必不可少的。

这不仅帮助用户和研究者了解不同模型的性能,也是推动模型发展的关键因素。

如果只针对一个公开的评测集进行优化(即刷分),是有可能提高模型在该评测集上的分数的。

评测不应只依赖单一数据集,而应通过多个评测集和第三方闭卷考试等方式相互印证,以此来得到更全面、更有说服力的模型性能评估。

以及对于国内近期各个大模型厂商正打得热火朝天的价格战,商汤将眼光放在了提供更深的端到端产品价值上,特别是在具备无限潜力且与生活应用更接近的移动端上,通过端云协同实现更优的计算成本但不损害模型的综合能力。

这或许暗示了商汤将通过技术创新和优化成本结构,为未来可能入局的价格竞争做好了自己的规划。

参考链接:

[1]https://www.superclueai.com/

[2]https://mp.weixin.qq.com/s/3pfOKtG6ar2h2fR6Isv_Xw

在我们能看到的宇宙之外,可能还有无数个平行宇宙

在我们能看到的宇宙之外,可能还有无数个 “别的宇宙”,它们要么离得极远、要么维度不同、要么物理常数都不一样。

这些宇宙里,可能有 “另一个你”,做出过不同选择,过着不一样的人生。

它不是瞎编,来自两大理论量子力学:多世界诠释(最有名)1957 年,休・埃弗雷特提出:量子每次 “二选一”,宇宙就会分裂成两条平行现实。

比如薛定谔的猫:不是 “又死又活”,而是一个宇宙猫死了,另一个宇宙猫活着,两个世界都真实,只是互相看不见。

好处:数学最简单,不用额外加 “波函数坍缩” 规则,很多物理学家(如肖恩・卡罗尔)认为这是对量子力学最优雅的解释。

宇宙学:永恒暴胀+泡泡宇宙大爆炸之后,宇宙极快膨胀(暴胀)。

安德烈・林德等人发现:暴胀不会同时停,有的区域停下成 “泡泡宇宙”,外面还在无限膨胀。

我们的宇宙只是其中一个泡泡;

别的泡泡可能光速、引力强度、甚至物理定律都不同。

这个模型能自然解释宇宙为什么这么均匀、这么平,和微波背景辐射数据吻合得很好。

主要的几类平行宇宙(通俗版)遥远复制区(第一类)宇宙无限大,物质均匀分布,极远处会有和地球一模一样的复制区,也有另一个你,历史几乎一样,只是某次选择不同。

泡泡宇宙(第二类)每个泡泡是独立宇宙,物理常数 / 定律可能不同,有的能形成恒星行星,有的不能。

量子多世界(第三类)每次量子选择,世界分裂,所有可能性都在不同分支里实现,分支之间不互通、不可见。

数学宇宙(第四类,偏哲学)所有数学上自洽的结构都对应真实宇宙,我们的宇宙只是其中一种数学结构。

有证据吗?—— 目前只有 “间接线索”宇宙微波背景冷斑:大爆炸余晖里有个异常低温区,有人猜是早期和另一个泡泡宇宙碰撞的痕迹,但没定论。

量子纠缠与干涉:量子计算机的并行计算能力,被戴维・多伊奇等物理学家认为是多世界存在的间接证据—— 计算是在多个平行世界里同时完成的。

暗能量与宇宙常数:我们宇宙的暗能量数值 “刚好适合生命”,用多重宇宙+人择原理能自然解释:无数泡泡里,只有数值刚好的才能演化出我们来观察它。

争议在哪?—— 最大问题:“看不见、摸不着”无法验证 / 证伪:平行宇宙和我们没有光信号联系,原则上很难直接观测;

有人认为这已经接近玄学,不算科学。

奥卡姆剃刀:批评者说,为了解释我们看到的世界,引入无限个不可观测宇宙,太 “奢侈”,不如找更简单的解释。

概率与测量问题:多世界里 “所有结果都发生”,很难定义 “概率”,数学上还有没解决的难题。

总结(人话版)科幻感很强,但出身很科学:来自量子力学和宇宙学的核心方程,不是瞎编。

存在可能性不小:多世界诠释和泡泡宇宙,都是很多顶尖物理学家认真支持的主流模型。

但别当事实:至今没有任何一个实验能直接证明平行宇宙存在,它仍是假说。

另一个你?:在多世界和无限宇宙模型里,理论上一定存在;

但你们永远无法见面、无法互相影响。

在整个太阳系里,月球的存在本身就是最大的bug,越来越多疑点指向外星造物

从古至今,月球都是夜空中最温柔的存在,我们一直默认它是天然形成的卫星。

但随着人类登月探测、地质数据解析,越来越多反常现象浮出水面。

很多科学家大胆提出猜想:月球或许不是普通天体,它有可能是外星文明刻意制造的球体,甚至是一颗隐藏在地球身边的巨型宇宙飞船。

今天我们聊聊月球身上那些无法解释的奇怪疑点,看完颠覆你的认知。

离谱到反常的完美天体比例在整个太阳系里,月球的存在本身就是最大的bug。

按照天然天体规律,行星的卫星普遍偏小,比例差距悬殊。

但月球和地球的比例太夸张了,大小配比完全不符合宇宙常态。

月球直径足足是地球的四分之一,质量比例远超太阳系所有卫星。

这么大的卫星,稳稳围绕地球旋转,本身就充满违和感。

更诡异的是日月完美重合的天文巧合。

太阳距离地球的距离,刚好是月球距离的400倍。

太阳直径也恰好是月球的400倍,这才让日全食完美上演。

这种极致精准的概率,天然形成的可能性几乎为零。

永远背对地球的神秘背面月球最让人细思极恐的一点,就是潮汐锁定。

数十亿年来,月球永远只有正面朝向地球,背面从不示人。

天然星球的自转和公转,很难做到如此绝对、永久的同步。

这就像有人刻意操控,固定住月球的姿态。

仿佛是故意不让人类看见,月球背面隐藏的秘密。

早年人类从未探测月球背面,各种外星基地、飞船猜想层出不穷。

即便如今探测器拍下背面影像,依旧疑点重重。

空心结构:颠覆天文常识的诡异震动如果月球是天然岩石星球,它一定是实心结构。

但美国阿波罗登月任务,曾做过一个震惊世界的地震实验。

宇航员在月球表面投放登月舱,撞击月面引发月震。

让人难以置信的是,月震持续了整整三个小时才消散。

科学家解释:实心岩石星球,震动会快速衰减。

只有空心球体,才会产生长时间回荡的震动效果。

这直接推翻了月球是天然实心星球的固有结论。

一颗天然形成的天体,不可能是完美的空心结构。

年龄悖论:月球比地球还要古老按照天体演化逻辑,卫星的形成时间,绝对晚于行星。

但科学家对月球岩石采样检测,得出惊人结果。

月球采集的岩石样本,年龄普遍在53亿年以上。

而我们居住的地球,目前公认年龄只有46亿年。

月球比地球还要古老7亿年,彻底违背天体演化规律。

它不是地球诞生后衍生的卫星,更像是外来的“不速之客”。

金属外壳:疑似人工装甲层探测器数据分析发现,月球表层金属含量异常离谱。

月球表面存在大量稀有金属、钛合金、耐高温金属层。

这些金属纯度极高,天然地质运动根本无法形成。

更诡异的是,月球表层有一层坚硬的金属硬壳。

厚度远超天然岩石层,硬度异常强悍。

很多研究者大胆推测:这是宇宙飞船的防护装甲层。

内部空心、外层装甲、精准轨道,完全符合人造飞行器特征。

大胆猜想:月球是外星文明的观测飞船综合所有反常疑点,越来越多学者认可一个大胆猜想。

月球根本不是天然卫星,而是外星文明打造的巨型宇宙飞船。

它被刻意放置在地球轨道,用来长期观测、监测地球文明。

空心结构是内部舱体,金属层是防护外壳,锁定姿态是刻意控制。

数十亿年来,它静静悬停在地球身旁,默默注视着人类演化。

写在最后目前没有任何证据,能百分百证实月球的真实身份。

但所有违背自然规律的细节,都在指向同一个答案。

这颗陪伴人类亿万年的银色星球,或许从来都不简单。

它不是自然的馈赠,而是来自宇宙深处的巨型造物。

至于外星文明为何放置月球,背后藏着怎样的目的,至今仍是宇宙最大的未解之谜。

猜你喜欢

医保哪些费用可以报销
医保哪些费用可以报销
百科 2026-06-08
模范出租车有第三季吗?
模范出租车有第三季吗?
释疑解惑 2026-06-08

4Turbo首次被击败!国产大模型拿下总分第一

点击下载文档

格式为doc格式