找回密码
 立即注册
大模型参加高考,能上什么学校?
高考结束不到5天,各家大模型纷纷在语文作文、数学题上PK,有的文采飞扬,作文能接近满分;有的数学能力领先,直接满分交卷。如果让大模型直接做完整套试卷,总分又能拿多少?
以辽宁2025年高考真题为例(题目源自网络),记者邀请了7位国产大模型“选手”参赛。他们分别是:DeepSeek、豆包、腾讯元宝(混元T1)、讯飞星火、Kimi、千问和文心。
辽宁卷的语数英采用全国二卷,副科自主命题,据了解,黑、吉、辽、蒙共用九科试卷。整个评测方式采用3(语数外)+3(理综/文综)的形式对大模型进行了全科目测试。评测过程中,优先将试卷题目截图上传作答,少量图片解析失败的用OCR文本代替。最后,邀请了多位在职高中老师,评判各个科目的主观题分数。

ChMkK2hLy1CIU-G2AACkbIlMPB8AAtk7gHmF88AAKSE641.jpg

ChMkK2hLy1CIU-G2AACkbIlMPB8AAtk7gHmF88AAKSE641.jpg


从总成绩来看,元宝在文科考试中拿下第一,获得667.5分的高分,以2024年辽宁省高考录取分数线为参考,已经可以冲刺“清北”。紧随其后的豆包、讯飞星火拿下来655分和652分的高分,也可以轻松就读985顶尖院校。
而在理科考试中,和往年一样,理科成绩会整体会弱于文科。拿到第一的豆包获得了635分,紧随其后元宝和kimi拿到了632.5分和629分,都可以冲刺985。但对比文科,无缘顶尖大学。
具体来看,语数英三门主科中,豆包拿下了语文第一,紧随其后元宝、kimi拿下了并列第二。各家在语文主观题上都表现比较平均,而豆包、元宝、kimi在作文上都拿到了50+的高分,使整体成绩更佳。数学测试则是由元宝拿下了第一,获得了149分的高分。只在最后一道解答题中,因答题过程稍不完整,遗憾丢失1分。在英语测试中,各家大模型在主观题都表现的比较平均,都能拿到满分,差异主要出现在英语作文。

ChMkK2hLy1CIGd3dAADQj_mKg9EAAtk7gHnmAQAANCn559.jpg

ChMkK2hLy1CIGd3dAADQj_mKg9EAAtk7gHnmAQAANCn559.jpg


大模型在文综方面也都表现不错。对于文综的客观题,表现好一些的大模型,如元宝、豆包能拿到接近满分,这也体现了大模型在知识理解和覆盖上较为出色。但在主观题中,文综对于解答题的“得分点”有比较高的要求,而大模型似乎对此不那么熟悉。比如地理解答题对知识点和推导过程要求严格,大模型可以给出最终答案,但会缺少1-2个知识点的推导。而在政治题上,则更加要求知识点的完整性,在阅读题的部分,大模型经常会遗漏部分知识点导致失分。阅卷老师也特别提到,元宝正是对这些“得分点”把握的比较精准,拿到了更好的成绩。

ChMkK2hLy1CIXwctAADbmdnki4MAAtk7gHmvFMAANux945.jpg

ChMkK2hLy1CIXwctAADbmdnki4MAAtk7gHmvFMAANux945.jpg


而在理综方面,大模型在数学逻辑推理上还存在一定短板,另外理科试题存在比较多图像、符号,大模型对这部分内容理解不足,也会导致整体偏弱。阅卷老师提到,比如物理答卷中,针对解答题,大模型大多能匹配到正确的公式,但在计算过程中也会出现不同程度的问题,导致答案偏离。而在化学考试的填空题中,往往一道大题会包含5-6个小题,各家大模型都没法在这类题型中拿到满分。生物题也同样出现这样的状况。
但总体来看,对比去年大模型比较严重的“偏科”情况,成绩只能达到“文科能上一本,理科只能上二本”的水平。今年大模型整体的能力有很大的提升,不仅在文科上能冲刺清北,理科上985也不是问题。这也源于过去一年人工智能领域、以及国产大模型的飞速发展。
相信在未来,发展速度会越来越快,也期待看到模型不仅不再“偏科”、在分数上有跨跃性的进步,还能实际运用到各个学科发展上,攻克更多挑战。
分享至 : QQ空间
收藏

12 个回复

倒序浏览
楼上的观点很新颖,让我看到了不同的可能性,非常感谢!
回复 使用道具 举报
这个论坛真是让我收获满满,感谢大家的分享与帮助。
回复 使用道具 举报
希望这个讨论能够引发更多人的思考和参与。
回复 使用道具 举报
期待这个论坛能够持续为我们带来新鲜的内容和观点。
回复 使用道具 举报
支持楼主
回复 使用道具 举报
感谢分享,非常有用。
回复 使用道具 举报
这个要顶
回复 使用道具 举报
期待这个论坛能够继续为我们带来更多的惊喜和收获。
回复 使用道具 举报
这个帖子很有价值,建议大家收藏一下。
回复 使用道具 举报
12下一页
您需要登录后才可以回帖 登录 | 立即注册