给ai一场面试:为什么传统测试正在失效?
给AI一场面试:为什么传统测试正在失效?
引入:当AI刷题超越人类
2025年底,GPT-4在律师资格考试中得分超过90%的人类考生。但有趣的是,当研究人员让它处理真实的客户咨询时,表现却远不如预期。这个反差揭示了一个被忽视的问题:我们正在用错误的方式评估AI。
宾夕法尼亚大学沃顿商学院的Ethan Mollick教授提出了一个尖锐的观察:大多数AI基准测试就像让应聘者做一份标准试卷,而真正的能力只有在面试中才能显现。
分析:传统AI测试的三大盲区
1. 数据污染:AI在背答案
MMLU-Pro、GPQA等主流测试的题目和答案在网上公开已久。许多AI模型在训练时已经见过这些题目——这不是能力的体现,而是记忆的展示。
更尴尬的是,一些测试题目本身存在错误。Mollick指出,MMLU-Pro中甚至包含Homo erectus的平均颅容量是多少这类连人类专家都未必能准确回答的问题。
2. 分数膨胀:1%的进步意味着什么?
当AI在某项测试上从84%提升到85%,这是重大突破还是统计噪音?我们缺乏校准——不知道不同分数区间代表的真实能力差异。
3. 脱离场景:考试高手,实战菜鸟
AI可能在SWE-bench编程测试中表现优异,却无法理解一个模糊的真实需求文档。它可能通过医学考试,却在面对复杂病例时束手无策。
案例:从做题到做事
Mollick建议采用工作面试式评估:给AI一个真实的任务,观察它如何完成。
传统测试问: 以下哪个是Python中列表排序的正确语法?
真实任务问: 帮我整理这份学生成绩数据,找出进步最大的前10名学生,并生成可视化报告。
后者测试的不仅是语法知识,还包括:需求理解、数据清洗、逻辑推理、工具选择和结果呈现——这才是真实世界需要的综合能力。
建议:教育者如何重新设计AI评估
对学生:从会用到会验
不要满足于AI给出的答案,学会质疑和验证:
- 让AI解释它的推理过程
- 要求提供信息来源
- 用不同AI交叉验证关键结论
- 测试它在边界情况下的表现
对教师:设计真实任务评估
与其测试学生是否记得某个AI功能,不如设计开放性任务:
- 用AI辅助完成一份市场调研报告
- 让AI帮你分析这篇论文的论证漏洞
- 设计一个AI工作流,自动化处理班级考勤
评估标准不是用了什么工具,而是解决了什么问题。
对管理者:建立AI能力矩阵
为团队建立AI能力评估框架:
- 基础层:能否准确描述需求?
- 进阶层:能否分解复杂任务?
- 高阶层:能否验证和迭代AI输出?
总结:测试的终点,实践的起点
Mollick的核心观点很简单:评估AI最好的方式,是让它做真正的工作。
这对教育的启示是深远的。当我们的学生走出校门,他们面对的不是标准化试卷,而是模糊、复杂、充满不确定性的真实问题。
教会他们如何给AI一场面试——提出好问题、验证答案、迭代改进——比教会他们任何单一工具都更有价值。
毕竟,在AI时代,提出正确问题的能力,比知道正确答案更重要。

