大模型都能冲清北了？首个AI高考总分评测结果出炉

大模型参加高考，能上什么学校？
高考结束不到5天，各家大模型纷纷在语文作文、数学题上PK，有的文采飞扬，作文能接近满分；有的数学能力领先，直接满分交卷。如果让大模型直接做完整套试卷，总分又能拿多少？
以辽宁2025年高考真题为例（题目源自网络），记者邀请了7位国产大模型“选手”参赛。他们分别是：DeepSeek、豆包、腾讯元宝（混元T1）、讯飞星火、Kimi、千问和文心。
辽宁卷的语数英采用全国二卷，副科自主命题，据了解，黑、吉、辽、蒙共用九科试卷。整个评测方式采用3（语数外）+3（理综/文综）的形式对大模型进行了全科目测试。评测过程中，优先将试卷题目截图上传作答，少量图片解析失败的用OCR文本代替。最后，邀请了多位在职高中老师，评判各个科目的主观题分数。

ChMkK2hLy1CIU-G2AACkbIlMPB8AAtk7gHmF88AAKSE641.jpg

从总成绩来看，元宝在文科考试中拿下第一，获得667.5分的高分，以2024年辽宁省高考录取分数线为参考，已经可以冲刺“清北”。紧随其后的豆包、讯飞星火拿下来655分和652分的高分，也可以轻松就读985顶尖院校。
而在理科考试中，和往年一样，理科成绩会整体会弱于文科。拿到第一的豆包获得了635分，紧随其后元宝和kimi拿到了632.5分和629分，都可以冲刺985。但对比文科，无缘顶尖大学。
具体来看，语数英三门主科中，豆包拿下了语文第一，紧随其后元宝、kimi拿下了并列第二。各家在语文主观题上都表现比较平均，而豆包、元宝、kimi在作文上都拿到了50+的高分，使整体成绩更佳。数学测试则是由元宝拿下了第一，获得了149分的高分。只在最后一道解答题中，因答题过程稍不完整，遗憾丢失1分。在英语测试中，各家大模型在主观题都表现的比较平均，都能拿到满分，差异主要出现在英语作文。

ChMkK2hLy1CIGd3dAADQj_mKg9EAAtk7gHnmAQAANCn559.jpg

大模型在文综方面也都表现不错。对于文综的客观题，表现好一些的大模型，如元宝、豆包能拿到接近满分，这也体现了大模型在知识理解和覆盖上较为出色。但在主观题中，文综对于解答题的“得分点”有比较高的要求，而大模型似乎对此不那么熟悉。比如地理解答题对知识点和推导过程要求严格，大模型可以给出最终答案，但会缺少1-2个知识点的推导。而在政治题上，则更加要求知识点的完整性，在阅读题的部分，大模型经常会遗漏部分知识点导致失分。阅卷老师也特别提到，元宝正是对这些“得分点”把握的比较精准，拿到了更好的成绩。

ChMkK2hLy1CIXwctAADbmdnki4MAAtk7gHmvFMAANux945.jpg

而在理综方面，大模型在数学逻辑推理上还存在一定短板，另外理科试题存在比较多图像、符号，大模型对这部分内容理解不足，也会导致整体偏弱。阅卷老师提到，比如物理答卷中，针对解答题，大模型大多能匹配到正确的公式，但在计算过程中也会出现不同程度的问题，导致答案偏离。而在化学考试的填空题中，往往一道大题会包含5-6个小题，各家大模型都没法在这类题型中拿到满分。生物题也同样出现这样的状况。
但总体来看，对比去年大模型比较严重的“偏科”情况，成绩只能达到“文科能上一本，理科只能上二本”的水平。今年大模型整体的能力有很大的提升，不仅在文科上能冲刺清北，理科上985也不是问题。这也源于过去一年人工智能领域、以及国产大模型的飞速发展。
相信在未来，发展速度会越来越快，也期待看到模型不仅不再“偏科”、在分数上有跨跃性的进步，还能实际运用到各个学科发展上，攻克更多挑战。