给AI一场面试：为什么传统测试正在失效？

引入：当AI刷题超越人类

2025年底，GPT-4在律师资格考试中得分超过90%的人类考生。但有趣的是，当研究人员让它处理真实的客户咨询时，表现却远不如预期。这个反差揭示了一个被忽视的问题：我们正在用错误的方式评估AI。

宾夕法尼亚大学沃顿商学院的Ethan Mollick教授提出了一个尖锐的观察：大多数AI基准测试就像让应聘者做一份标准试卷，而真正的能力只有在面试中才能显现。

分析：传统AI测试的三大盲区

1. 数据污染：AI在背答案

MMLU-Pro、GPQA等主流测试的题目和答案在网上公开已久。许多AI模型在训练时已经见过这些题目——这不是能力的体现，而是记忆的展示。

更尴尬的是，一些测试题目本身存在错误。Mollick指出，MMLU-Pro中甚至包含Homo erectus的平均颅容量是多少这类连人类专家都未必能准确回答的问题。

2. 分数膨胀：1%的进步意味着什么？

当AI在某项测试上从84%提升到85%，这是重大突破还是统计噪音？我们缺乏校准——不知道不同分数区间代表的真实能力差异。

3. 脱离场景：考试高手，实战菜鸟

AI可能在SWE-bench编程测试中表现优异，却无法理解一个模糊的真实需求文档。它可能通过医学考试，却在面对复杂病例时束手无策。

案例：从做题到做事

Mollick建议采用工作面试式评估：给AI一个真实的任务，观察它如何完成。

传统测试问： 以下哪个是Python中列表排序的正确语法？

真实任务问： 帮我整理这份学生成绩数据，找出进步最大的前10名学生，并生成可视化报告。

后者测试的不仅是语法知识，还包括：需求理解、数据清洗、逻辑推理、工具选择和结果呈现——这才是真实世界需要的综合能力。

建议：教育者如何重新设计AI评估

对学生：从会用到会验

不要满足于AI给出的答案，学会质疑和验证：

让AI解释它的推理过程
要求提供信息来源
用不同AI交叉验证关键结论
测试它在边界情况下的表现

对教师：设计真实任务评估

与其测试学生是否记得某个AI功能，不如设计开放性任务：

用AI辅助完成一份市场调研报告
让AI帮你分析这篇论文的论证漏洞
设计一个AI工作流，自动化处理班级考勤

评估标准不是用了什么工具，而是解决了什么问题。

对管理者：建立AI能力矩阵

为团队建立AI能力评估框架：

基础层：能否准确描述需求？
进阶层：能否分解复杂任务？
高阶层：能否验证和迭代AI输出？

总结：测试的终点，实践的起点

Mollick的核心观点很简单：评估AI最好的方式，是让它做真正的工作。

这对教育的启示是深远的。当我们的学生走出校门，他们面对的不是标准化试卷，而是模糊、复杂、充满不确定性的真实问题。

教会他们如何给AI一场面试——提出好问题、验证答案、迭代改进——比教会他们任何单一工具都更有价值。

毕竟，在AI时代，提出正确问题的能力，比知道正确答案更重要。

给ai一场面试：为什么传统测试正在失效？

给AI一场面试：为什么传统测试正在失效？

引入：当AI刷题超越人类

分析：传统AI测试的三大盲区

1. 数据污染：AI在背答案

2. 分数膨胀：1%的进步意味着什么？

3. 脱离场景：考试高手，实战菜鸟

案例：从做题到做事

建议：教育者如何重新设计AI评估

对学生：从会用到会验

对教师：设计真实任务评估

对管理者：建立AI能力矩阵

总结：测试的终点，实践的起点

More from this blog

AI Has Surpassed Human Benchmarks—The Education Assessment System Is Collapsing

Ai已超越人类基准测试——教育评估体系正在崩塌

AI Is Smarter Than You Think—It's Just Trapped in a Chatbox

Ai比你想象的更强大，只是被聊天框困住了

In the AI Era, Knowledge Is Commoditized — Frameworks Are the Real Edge

Command Palette

给AI一场面试：为什么传统测试正在失效？

引入：当AI刷题超越人类

分析：传统AI测试的三大盲区

1. 数据污染：AI在背答案

2. 分数膨胀：1%的进步意味着什么？

3. 脱离场景：考试高手，实战菜鸟

案例：从做题到做事

建议：教育者如何重新设计AI评估

对学生：从会用到会验

对教师：设计真实任务评估

对管理者：建立AI能力矩阵

总结：测试的终点，实践的起点

More from this blog