可控安全对齐CoSA: LLM推理阶段适应多样化的安全需求

开课提醒

智猩猩AI新青年讲座 2025/06/11 10:00:00

课程讲师

张景昱约翰霍普金斯大学博士生

约翰霍普金斯大学计算机科学博士二年级学生，师从Daniel Khashabi和Benjamin Van Durme教授，研究方向聚焦于大语言模型（LLM）的推理、对齐与安全。张景昱曾在微软Azure AI担任实习研究员，深度参与Responsible AI研究，现担任Meta GenAI实习研究员，参与Llama大模型研发。他在ICLR、NeurIPS、ACL等顶级国际会议上发表多篇论文，代表性成果包括CoSA、SemStamp、Verifiable by Design等工作。

张景昱

约翰霍普金斯大学博士生

课程提纲

1. 当前安全对齐面临的挑战与背景
2. 可控安全对齐CoSA框架概述
3. CoSAlign对齐方法详解
4. 评估标准和CoSApien可控安全基准测试集
5. 实验结果与分析

课程简介

随着大型语言模型 (LLM) 的功能越来越强大，它们的安全性也逐渐成为关键议题。目前，LLM的安全校准范式遵循 “一刀切”的方法。模型提供者预先定义一套原则，将模型与这套固定的原则对齐。然而不同文化和地区的社会规范存在诸多差异，这种方法忽略了人类价值观的多样性，缺乏灵活。此外，用户的安全需求可能多种多样，这使得固定安全标准的模型限制过多而难以使用，重新对齐的成本也过高。

为此，来自约翰霍普金斯大学和微软的研究者们提出了可控安全对齐（CoSA）框架，通过训练模型遵循系统提示词中自然语言形式的的安全配置，证明了模型的安全性可以在推理时进行调整而无需重新训练。为了实现这一点，团队提出了以数据为中心的对齐方法CoSAlign，以轻松适应各种安全配置。

CoSA使LLM在推理阶段可以高效适应多样化的安全需求。通过在系统提示词中增加自然语言形式的“安全配置”并对LLM进行微调，使得LLM遵循这些“安全配置”。安全配置使用自然语言描述模型的安全行为，包括但不限于允许和禁止LLM生成的内容类型。

具有特定安全需求的授权用户只需在推理时修改系统提示词中的安全配置而无需重新训练。

为使模型适应不同的安全配置，团队引入了以数据为中心的对齐方法CoSAlign，只需要一组包含安全和不安全问题的训练提示词，即可实现大规模下的可控安全。

采用CoSAlign方法的模型表现出色，超越了所有基线模型。使用CoSAlign不仅大幅提升能够解决问题且安全的响应比例，还维持了较低的能够解决问题但不安全的响应比例。

6月11号上午10点，智猩猩邀请到论文一作、约翰霍普金斯大学计算机科学博士生张景昱参与「智猩猩AI新青年讲座」第265讲，以《可控安全对齐CoSA: LLM推理阶段适应多样化的安全需求》为主题带来直播讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...