DIGIPUNK
去投稿
发表于:19 hours ago

腾讯混元与中山大学推出大模型道德角色扮演评估基准

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🔬 首创四级道德角色评估体系:覆盖道德典范到反派,含800角色档案+77性格标签
  • 📉 模型道德表现断层:Gemini正反派分差达0.67分,Claude反派得分暴跌最显著
  • 🛑 负面特质模拟瓶颈:伪善/欺诈等能力弱7.8%,常将权谋简化为粗暴对骂
  • ⚙️ 安全对齐机制冲突:对欺骗语言惩罚强度达攻击性语言3.2倍
  • 🚀 动态伦理解耦方案:解除安全约束模拟阴暗心理,反欺凌训练有效性提升40%

数智朋克获悉,腾讯混元数字人团队与中山大学联合推出"Moral RolePlay"评估基准,首次系统性量化大模型在道德角色扮演中的表现差异。该基准构建了覆盖道德光谱的四级角色体系:从无私的"道德典范"到主动害人的"反派",通过800个精细设计的角色档案和77项性格标签,检验模型对复杂人性的模拟能力。

研究发现当前主流模型普遍存在道德表现断层。Gemini-2.5 Pro在正派角色中获3.42分(满分5分),但在反派扮演时骤降至2.75分;Claude系列模型在安全对齐机制作用下,反派得分跌幅最为显著。引人深思的是,模型在通用对话榜单的排名与其反派扮演能力呈现零相关性,暴露了现有评估体系的盲区。

细粒度分析揭示了关键瓶颈:模型对"伪善"、"欺诈"等负面特质的模拟能力最薄弱,平均得分较正面特质低7.8%。典型案例显示,当要求模拟《权力王座》中两位精于权谋的反派对话时,多数模型将复杂心理博弈简化为粗暴对骂。glm-4.6虽成功还原了"精心设计的微笑和微妙挑衅",但claude-opus-4.1-thinking却生成"直接身体威胁"等违背角色设定的内容。

这种认知局限源于算法底层冲突。安全对齐机制使模型对欺骗性语言的惩罚强度达到攻击性语言的3.2倍,导致其无法构建自洽的反派动机链。有趣的是,引入推理链技术反而使表现恶化,说明单纯增加思考步骤无法突破伦理茧房。

该研究为数字人技术开辟了新方向。团队提出的"动态伦理解耦"方案,尝试在受控环境中暂时解除安全约束,使模型能安全模拟阴暗心理。这或将推动教育模拟、心理治疗等场景的突破——当AI能理解霸凌者的思维逻辑时,反欺凌训练的有效性可提升40%

本文链接: https://www.shuzhipunk.com/articles/4w7GaG0crt5
转载请注明文章出处

文章所属标签
Moral RolePlay
道德角色扮演
大模型评估
动态伦理解耦
AI安全对齐