Jeffrey Ladish

Open Problems in Technical AI Governance.

[BibT_eX]

[DOI]

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

Alexandra Sasha Luccioni

,

,

,

,

,

,

,

,

,

,

Mykel J. Kochenderfer

,

Robert Trager

CoRR, 2024

Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits.

[BibT_eX]

[DOI]

Andis Draguns

,

Andrew Gritsevskiy

,

Sumeet Ramesh Motwani

,

Charlie Rogers-Smith

,

Jeffrey Ladish

,

Christian Schröder de Witt

CoRR, 2024

BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B.

[BibT_eX]

[DOI]

,

,

,

CoRR, 2023

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B.

[BibT_eX]

[DOI]

Simon Lermen

,

Charlie Rogers-Smith

,

Jeffrey Ladish

CoRR, 2023

Constitutional AI: Harmlessness from AI Feedback.

[BibT_eX]

[DOI]

CoRR, 2022

Measuring Progress on Scalable Oversight for Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2022

Jeffrey Ladish

Timeline

Legend:

Links

On csauthors.net:

Bibliography

Loading...