Qwen 3.7Max高考数学测试得分114分
原标题:Qwen 3.7Max 高考数学评估,初步评估意见114分
速览
本文分享了Qwen 3.7Max模型在新高考数学试卷上的评估结果,初步得分114分。测试在Claude Code环境下运行,未调用联网和Coding功能,耗时约22分钟。结果显示模型具备较强的数学推理与计算能力,为评估大模型学术水平提供了参考。
AI 深度解读
背景
近期,在 LINUX DO · AI 社区中,针对最新发布的 Qwen 3.7Max 模型进行了一项针对中国新高考数学试卷的专项能力评估。该测试旨在通过大语言模型(LLM)在复杂逻辑推理和数学计算场景下的表现,直观量化其当前的智能水平。
测试选取了具有代表性的高难度新高考数学题目,包括选择题、多选题、填空题和解答题。测试环境配置为 Claude Code 结合 Reasoning Max 模式,通过 dashscope API 调用 Qwen 3.7Max 接口。值得注意的是,此次测试未启用联网搜索和代码执行(Coding)功能,纯粹依赖模型自身的参数化知识储备与推理能力。整个推理过程耗时 22 分 45 秒,最终评分由 Codex app 5.5 xhigh 模型给出,初步评估得分约为 114 分。
核心内容
本次评估详细展示了 Qwen 3.7Max 对新高考数学试卷中各类型题目的解题过程与结果。模型展现了较强的数学基础知识和逻辑推导能力,但在部分细节处理和题目理解上存在细微偏差。
一、选择题部分 模型在基础统计、向量线性运算、三角函数集合运算及导数几何应用上表现稳定,第 1 至 4 题均给出正确推导并选出正确答案(B, A, C, D)。
- 第 5 题(解析几何):模型正确计算了两条抛物线 $C_1$ 和 $C_2$ 的焦点坐标,并求出焦点间距离为 $\sqrt{17}$。然而,标准选项 D 为 $\frac{\sqrt{65}}{2}$。模型敏锐地指出计算结果与选项存在差异,推测题目可能存在排版或数据差异,并基于“最接近”原则选择了 D。这反映了模型在处理潜在题目错误时的容错与判断能力。
- 第 6 题(函数极值):通过求导分析函数 $f(x)$ 的单调性,模型准确找到极值点 $x=1-a$,并通过代入验证 $a=1$ 满足条件,逻辑严密。
- 第 7 题(数列与组合):面对复杂的数列分组求和与配对问题,模型首先列出前 12 项的具体数值,计算出总和为 108。随后,它假设 6 组之和构成等差数列,通过建立方程 $2b_1 + 5d = 36$ 并验证公差 $d=4$ 的情况,成功构造出满足条件的配对方案,验证了答案 B 的正确性。
- 第 8 题(概率期望):利用对称性原理,模型巧妙地将高维空间点的坐标和期望转化为整体集合减去特定点后的平均值,快速得出 $E[X] = -\frac{1}{21}$,选 A。
二、多选题部分
- 第 9 题(复数):模型对复数 $z=3+2i$ 的共轭、模长、平方及复数除法运算进行了逐一验证,准确排除了 B 和 D 选项,选出 AC。
- 第 10 题(立体几何):通过建立空间直角坐标系,模型利用二面角条件 $\cos(\alpha-\beta)=\frac{1}{2}$ 推导线段 $CD$ 的最小值,并逐一驳斥了其他选项中的几何关系(如垂直关系、角度大小),逻辑清晰,选出 B。
- 第 11 题(圆与直线):模型分析了三个圆心构成等边三角形的几何结构,利用连续性和中间值定理论证了直线解的存在性与数量,排除了明显错误的 A、B、D 选项,选出 C。
三、填空题部分
- 第 12 题(双曲线):模型正确识别双曲线方程参数,计算离心率 $e = \frac{\sqrt{66}}{6}$。
- 第 13 题(三角函数性质):根据偶函数性质确定相位 $\theta$,并结合单调性确定参数 $a=1$,最终计算出函数值 $f(\frac{2\pi}{3})=1$。
- 第 14 题(数列与等比数列):这是一个高难度题目。模型通过定义前 $n$ 项和 $S(m)$,推导出每三项之和的规律。随后,它假设等比数列跨块分布,建立关于公比 $q$ 的方程 $q^3 = \frac{m+2}{m+1}$,并通过分析 $m$ 取最小值时 $q$ 最大,得出 $q = \sqrt[3]{\frac{3}{2}}$。
四、解答题部分
- 第 15 题(立体几何证明与计算):模型建立了完善的三维坐标系,准确写出各点坐标。
- (1) 通过计算向量 $\overrightarrow{DE}$ 与平面法向量的点积为 0,且点不在平面上,严谨证明了线面平行。
- (2) 利用线面角公式 $\sin 45^\circ = \frac{|\overrightarrow{DE} \cdot \boldsymbol{n}|}{|\overrightarrow{DE}|}$,反解出几何参数 $a=2$,并进一步计算出点 $D$ 到平面的距离为 1。
- 第 16 题(解三角形):模型运用余弦定理计算边长 $AC$,发现 $\triangle ABC$ 为等腰三角形,进而求出 $\cos A = \frac{1}{3}$。
关键要点
- 推理深度与稳定性:Qwen 3.7Max 在处理多步骤、多逻辑分支的数学问题时,展现了极高的稳定性。从基础概念到复杂几何建模,其推理链条完整,无明显逻辑断裂。
- 长程依赖与上下文管理:测试运行时长超过 22 分钟,表明模型在处理长文本输入和复杂推导时,能够有效维持上下文的一致性,未出现早期的“遗忘”或“幻觉”现象。
- 异常处理与鲁棒性:在第 5 题中,面对计算结果与选项不完全匹配的情况,模型没有盲目强行匹配,而是指出了数据差异并给出了基于“最接近”的合理推断,体现了类人的纠错与判断思维。
- 数学工具调用能力:尽管未调用外部 Coding 工具,模型在符号运算、方程求解、坐标系建立及向量运算上表现接近专业数学软件的水平,证明了其内部参数化知识在数学领域的深厚积累。
- 评分参考:初步评估得分 114 分(满分通常按高考数学 150 分计),意味着模型在大部分题目上表现优异,但在极个别高难度填空题或解答题的完整步骤规范性上可能仍有提升空间,或存在细微的计算/理解偏差。
意义与影响
此次评估不仅是对 Qwen 3.7Max 模型能力的单一验证,更标志着大语言模型在垂直领域专业推理上的重要突破。
- 从“对话”到“解题”的跨越:传统 LLM 常被诟病于逻辑幻觉,而高考数学作为高度结构化、逻辑严密的测试体系,是检验模型逻辑推理能力的“试金石”。Qwen 3.7Max 的高分表现证明,新一代模型已具备处理高难度专业任务的能力,不再局限于语言生成。
- 教育辅助的潜力:模型能够像人类学生一样逐步推导、展示过程,甚至指出题目潜在问题,这为智能辅导系统(Intelligent Tutoring Systems)提供了新的可能性。它不仅能给出答案,更能提供类似名师的解题思路分析。
- 技术演进的信号:测试中未使用联网和代码执行,纯靠模型自身能力完成,说明 Qwen 3.7Max 在基础架构和预训练数据质量上有了质的飞跃。这预示着未来 AI 在科学计算、工程验证等需要强逻辑闭环的场景中
查看原文 →linux.do
