PKU-Alignment/safe-rlhf

Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

[view on github]last commit: Nov 23, 2025

stars

1,603

7d

+2

30d

+4

90d

+20

## star history

## found in

Awesome Open Source AI/🛡️ 10. AI Safety, Alignment & Interpretability