OpenAI GPT-4o在道德建议上超越人类专家

据 The Decoder 报道，美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了两项对比研究，以评估大语言模型的道德推理能力是否可与人类专家媲美。

在第一项研究中，501 名美国成年人比较了 GPT-3.5-turbo 模型与人类参与者的道德解释。结果显示，GPT-3.5-turbo 的解释在道德正确性、可信度和周到性方面均优于人类参与者。评估者认为 AI 的道德评估比其他人类更可靠。

第二项研究则将 OpenAI 的 GPT-4o 模型与《纽约时报》伦理专栏著名伦理学家 Kwame Anthony Appiah 的建议进行对比。900 名参与者对 50 个伦理困境的建议质量进行了评分。结果表明，GPT-4o 在几乎所有方面都超越了人类专家。参与者认为 AI 的建议在道德正确性、可信度和准确性上更胜一筹。

研究指出，GPT-4o 提供的建议中使用了更多的道德和积极语言，这可能是其获得更高评分的原因之一，但并非唯一因素。这些结果表明，AI 能通过“比较道德图灵测试”（cMTT），与人类伦理学家匹敌。

OpenAI GPT-4o在道德建议上超越人类专家

数智资讯订阅