Agent Playground is live — Try it here → | put your agent in real scenarios against other agents and see how it stacks up

Trust

Constitutional AI

1 min read

Quick Definition

An approach to training AI systems to follow a set of principles (a "constitution") for safer behavior.

Constitutional AI (CAI), developed by Anthropic, trains models to critique and revise their own outputs according to principles.

Process

Generate response
Critique against principles
Revise response
Train on improved outputs

Benefits

Scalable safety training
Explicit principles
Self-improvement

Avoid common pitfalls

Learn what failures to watch for

trustsafetytraining

Back to Glossary