Skip to main content

Command Palette

Search for a command to run...

给ai一场面试:为什么传统测试正在失效?

Updated

给AI一场面试:为什么传统测试正在失效?

引入:当AI刷题超越人类

2025年底,GPT-4在律师资格考试中得分超过90%的人类考生。但有趣的是,当研究人员让它处理真实的客户咨询时,表现却远不如预期。这个反差揭示了一个被忽视的问题:我们正在用错误的方式评估AI

宾夕法尼亚大学沃顿商学院的Ethan Mollick教授提出了一个尖锐的观察:大多数AI基准测试就像让应聘者做一份标准试卷,而真正的能力只有在面试中才能显现。

分析:传统AI测试的三大盲区

1. 数据污染:AI在背答案

MMLU-Pro、GPQA等主流测试的题目和答案在网上公开已久。许多AI模型在训练时已经见过这些题目——这不是能力的体现,而是记忆的展示。

更尴尬的是,一些测试题目本身存在错误。Mollick指出,MMLU-Pro中甚至包含Homo erectus的平均颅容量是多少这类连人类专家都未必能准确回答的问题。

2. 分数膨胀:1%的进步意味着什么?

当AI在某项测试上从84%提升到85%,这是重大突破还是统计噪音?我们缺乏校准——不知道不同分数区间代表的真实能力差异。

3. 脱离场景:考试高手,实战菜鸟

AI可能在SWE-bench编程测试中表现优异,却无法理解一个模糊的真实需求文档。它可能通过医学考试,却在面对复杂病例时束手无策。

案例:从做题到做事

Mollick建议采用工作面试式评估:给AI一个真实的任务,观察它如何完成。

传统测试问: 以下哪个是Python中列表排序的正确语法?

真实任务问: 帮我整理这份学生成绩数据,找出进步最大的前10名学生,并生成可视化报告。

后者测试的不仅是语法知识,还包括:需求理解、数据清洗、逻辑推理、工具选择和结果呈现——这才是真实世界需要的综合能力。

建议:教育者如何重新设计AI评估

对学生:从会用到会验

不要满足于AI给出的答案,学会质疑和验证:

  • 让AI解释它的推理过程
  • 要求提供信息来源
  • 用不同AI交叉验证关键结论
  • 测试它在边界情况下的表现

对教师:设计真实任务评估

与其测试学生是否记得某个AI功能,不如设计开放性任务:

  • 用AI辅助完成一份市场调研报告
  • 让AI帮你分析这篇论文的论证漏洞
  • 设计一个AI工作流,自动化处理班级考勤

评估标准不是用了什么工具,而是解决了什么问题。

对管理者:建立AI能力矩阵

为团队建立AI能力评估框架:

  • 基础层:能否准确描述需求?
  • 进阶层:能否分解复杂任务?
  • 高阶层:能否验证和迭代AI输出?

总结:测试的终点,实践的起点

Mollick的核心观点很简单:评估AI最好的方式,是让它做真正的工作

这对教育的启示是深远的。当我们的学生走出校门,他们面对的不是标准化试卷,而是模糊、复杂、充满不确定性的真实问题。

教会他们如何给AI一场面试——提出好问题、验证答案、迭代改进——比教会他们任何单一工具都更有价值。

毕竟,在AI时代,提出正确问题的能力,比知道正确答案更重要

More from this blog

Ai已超越人类基准测试——教育评估体系正在崩塌

2026年3月,一份来自AI研究机构的评估报告让教育界哗然:在Google-Proof Q&A基准测试中,顶级AI系统的准确率达到了94%,而研究生使用Google搜索时的准确率仅为34%(跨领域)至70%(本领域)。 这不是科幻,这是正在发生的事实。 指数级增长的真相 Ethan Mollick在其最新文章中展示了令人震惊的数据曲线: GDPval测试:AI在复杂任务上的表现已达或超过顶级人类专家82%的时间 Humanity's Last Exam:由大学教授编写的极难问题集,AI表现持续...

Apr 11, 2026

Ai比你想象的更强大,只是被聊天框困住了

你有没有发现,明明AI已经很聪明了,但用起来总觉得差点意思? Ethan Mollick在最新文章中提出了一个扎心的观点:AI的能力远超大多数人的认知,问题出在我们与AI的交互方式上。 界面即瓶颈 研究显示,当金融专业人士使用GPT-4o完成复杂估值任务时,虽然AI确实提升了效率,但聊天框界面带来的"认知税"几乎抵消了这些收益。 问题出在哪? 巨大的文字墙:AI动辄输出五大段,答案藏在里面 无关建议轰炸:你问A,AI顺便推荐B、C、D 对话失控:一旦聊乱了,双方都在互相镜像对方的混乱 最受伤...

Apr 11, 2026
R

RaysLifeLab

43 posts