DIGIPUNK
去投稿
发表于:2024年07月08日

2024世界人工智能大会聚焦大模型安全,发布国内首份《大模型安全实践》白皮书

数智朋克
要点速达👈
  • 📢 2024世界人工智能大会发布《大模型安全实践》白皮书。
  • 🚨 大模型在专业决策和安全性方面仍面临挑战。
  • 💡 Transformer架构提升泛化能力,但智能涌现能力仍在“黑盒”中。
  • 🛡️ 安全、可靠、可控是大模型应用的三大红线。
  • 🔍 蚂蚁集团“蚁天鉴2.0”新增“测评智能体”功能。

数智朋克讯,经过一年多的快速发展,大模型的应用逐渐成熟,然而安全问题也随之突显。2024世界人工智能大会暨人工智能全球治理高级别会议发表的《人工智能全球治理上海宣言》强调,必须确保人工智能发展过程中的安全性、可靠性、可控性和公平性。

当前,大模型的安全评测主要集中在内容类场景,而对于智能体等高级应用的安全评估仍是空白区。昨日,《大模型安全实践(2024)》白皮书正式发布,这是国内首份大模型安全实践研究报告,提供了从安全性、可靠性和可控性等方面的技术框架。

尽管大模型在近两年取得了显著进步,特别是在智能涌现能力上有所提升,但在产业化过程中仍暴露出不少问题。大模型泛化能力强,但专业能力不足,并且长期存在幻觉问题。即便是OpenAI的最新模型GPT-Turbo,也难以避免事实性错误。蚂蚁集团大模型应用部总经理顾进杰指出,在要求严谨的行业中,大模型的幻觉问题和缺乏复杂推理能力尤为严重,特别是在金融和医疗领域,这些问题更加突出。

Transformer架构的应用使大模型的泛化能力大幅提升,但“智能涌现”的能力仍处于“黑盒”中,人类无法控制其生成的结果,从而造成专业能力的进步缓慢。OpenAI CEO Sam Altman也承认,GPT-4的专业性仅相当于专业人士的10%-15%。

白皮书总结了大模型发展面临的四大挑战:技术缺陷、个人隐私和公平性问题、企业数据安全风险以及社会层面的公共安全隐患。大模型生成的内容不可信、能力不可控及外部安全隐患等问题带来了诸多风险,包括生成“幻觉”影响内容可信度。个人层面,大模型挑战信息获取、公平正义和人格尊严等多个重要维度,同时加剧了“信息茧房”效应。企业层面,大模型面临用户隐私泄露、版权侵权及数据安全等多重风险。社会层面,大模型的广泛应用可能冲击就业市场、扩大数字鸿沟并危及公共安全。

中国信通院华东分院人工智能事业部主任常永波认为,大模型在应用过程中必须满足安全、可靠和可控这三大红线。安全性包括数据、应用、内容、伦理和认知等方面的安全;可靠性要求大模型在各种情境下持续提供准确、一致、真实的结果;可控性则关乎模型在提供结果和决策时能否让人类了解和干预。

国内头部厂商在大模型的安全和治理方面走在前列。蚂蚁集团推出的“蚁天鉴2.0”新增“测评智能体”功能,可以针对大模型的内在神经元进行“X光扫描”来探查和判断风险。这项技术能直观展示大模型内部的运作,定位并修正可能引发风险的神经元,从而在源头上识别和抑制风险。

本文链接: https://www.shuzhipunk.com/articles/xE3bLObKAMt
转载请注明文章出处

文章所属标签
大模型安全
人工智能治理
Transformer架构