我院邀请杰出校友、美国奥本大学范津砚教授作学术报告

2026年4月9日，我院杰出校友、美国奥本大学范津砚教授重返母校，为师生带来了一场题为“大型语言模型在多大程度上能够基于虚拟聊天文本准确评估人格？—不同提示语与评分的颗粒度对于大模型打分的心理测量学特性的影响”的学术报告。孟慧教授、段锦云教授、刘伟助理教授等相关专业的60余名学生参加报告会。报告会由段锦云教授主持。

1.1.jpg

在报告中，范津砚教授首先介绍了“为什么人格测评这件事值得持续关注”。过去三十年，人格测评之所以在企业招聘、人才发展中广泛应用，主要有两个原因：一是研究发现，人格分数确实能够预测工作绩效、领导力表现等重要结果；二是相比智力测验，人格测评在不同种族、性别群体间的差异更小，更有利于促进选拔公平，这对追求多元包容的现代组织来说，是一个实实在在的优势。

但传统的人格测评也并非完美。范津砚教授指出，自我报告式的测评存在几个“老问题”：预测效度有限，平均只有0.2左右；题目太透明，应聘者容易“装好”；题目数量多，用户体验不够友好，这些问题，一直是学界和业界共同关心的痛点。

1.2.jpg

随着人工智能大模型的兴起，人格测评迎来了新的可能。范津砚教授用通俗的语言介绍了两条技术路径：一条是“专家模式”的小模型，通过机器学习从文本、语音等数字痕迹中提取特征，训练专门的预测模型；另一条是“通用模式”的大模型，直接调用预训练好的大模型(LLM)，通过提示词打分。两条路各有特点，也各有适用场景。

那么，大模型真的能取代传统的小模型吗？范津砚教授团队基于407名大学生的聊天文本数据，系统比较了两种方法在信度、效度、因素结构等多个维度的表现。研究有几个值得关注的发现：在小维度水平上，小模型的信度表现更稳定；在大特质水平上，两者表现相当；大模型在汇聚效度上表现更优，但小模型在分数绝对一致性上更可靠；在预测实际结果（如学业成绩、同伴评价）时，两种模型各有优势，大模型在尽责性、情绪稳定性等特质上增量效应更明显。

范津砚教授特别强调，研究的核心结论不是“谁取代谁”，而是“如何协同”。大模型门槛低、部署快，适合快速验证想法；小模型信度稳、结构清楚，适合精细化反馈。在实际的人才测评场景中，企业往往需要下沉到小维度层面提供具体建议，这时候小模型的价值就凸显出来了。两者结合，或许才是更务实和有效的选择。

讲座最后，范津砚教授还分享了自己对未来研究的思考：大模型在不同群体间是否会产生新的偏差？在真实选拔场景下，应聘者刻意“伪装”时，模型还能保持效度吗？最少需要多少文本就能做出可靠判断？这些问题，既是挑战，也是新的研究机遇。

对于工业与组织心理学领域的青年教师和学生而言，这场报告带来的不仅是前沿知识的更新，更是一种研究态度的启发。技术浪潮奔涌，我们既要保持开放，主动学习新工具、新方法，也要坚守科学精神，不因“新”而忽视信度、效度、公平性等测量学底线。范津砚教授提醒我们：好的研究，既要回应真实场景的需求，也要经得起方法论的检验。大模型时代，人格测评的故事才刚刚翻开新的一页，期待更多各行各业的学者加入这场探索。

(沈睿供稿)