LLM 안전 정렬 (HLRF등을 이용한 ~하지 마라잉.) 과 외부 감시 모델(프롬프트 불손하면 잡음)을 동시에 뚫는 '슈퍼 접미사' 가능성 보여줌
두 방어선을 모두 속이는 이 기법에 맞서려면, 모델 내부 상태의 흔적을 감시하는 새로운 심층 방어 체계 구축이 필요.
OSS LLM 서비스 개발자 분들에게는 필요한 내용입니다.
참고