2024

AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment.

[DOI]

Pankayaraj Pathmanathan

,

Udari Madhushani Sehwag

,

Michael-Andrei Panaitescu-Liess

,

Furong Huang

CoRR, 2024

Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data?

[DOI]

Michael-Andrei Panaitescu-Liess

,

Zora Che

,

Bang An

,

Yuancheng Xu

,

Pankayaraj Pathmanathan

,

Souradip Chakraborty

,

Sicheng Zhu

,

Tom Goldstein

,

Furong Huang

CoRR, 2024

Is poisoning a real threat to LLM alignment? Maybe more so than you think.

[DOI]

Pankayaraj Pathmanathan

,

Souradip Chakraborty

,

Xiangyu Liu

,

Yongyuan Liang

,

Furong Huang

CoRR, 2024