Get our free extension to see links to code for papers anywhere online!Free add-on: code for papers everywhere!Free add-on: See code for papers anywhere!

Add to Chrome

Add to Firefox

Add to Edge

Title:One-Shot Safety Alignment for Large Language Models via Optimal Dualization

May 29, 2024

Xinmeng Huang, Shuo Li, Edgar Dobriban, Osbert Bastani, Hamed Hassani, Dongsheng Ding

Figure 1 for One-Shot Safety Alignment for Large Language Models via Optimal Dualization

Figure 2 for One-Shot Safety Alignment for Large Language Models via Optimal Dualization

Figure 3 for One-Shot Safety Alignment for Large Language Models via Optimal Dualization

Figure 4 for One-Shot Safety Alignment for Large Language Models via Optimal Dualization

Share this with someone who'll enjoy it:

Abstract:The growing safety concerns surrounding Large Language Models (LLMs) raise an urgent need to align them with diverse human preferences to simultaneously enhance their helpfulness and safety. A promising approach is to enforce safety constraints through Reinforcement Learning from Human Feedback (RLHF). For such constrained RLHF, common Lagrangian-based primal-dual policy optimization methods are computationally expensive and often unstable. This paper presents a dualization perspective that reduces constrained alignment to an equivalent unconstrained alignment problem. We do so by pre-optimizing a smooth and convex dual function that has a closed form. This shortcut eliminates the need for cumbersome primal-dual policy iterations, thus greatly reducing the computational burden and improving training stability. Our strategy leads to two practical algorithms in model-based and preference-based scenarios (MoCAN and PeCAN, respectively). A broad range of experiments demonstrate the effectiveness of our methods.

View paper on

Share this with someone who'll enjoy it:

Title:One-Shot Safety Alignment for Large Language Models via Optimal Dualization

Paper and Code