앞서 AI 정렬에 대하여 알아보았다. AI 정렬은 인간과 AI 가 공존하는 사회를 위해 필수 불가결한 문제로, 이전부터 현재까지 이를 위해 다양한 기술적 방법이 제시되고 있다. 특히 최근 2년은 AI 모델이 치열하게 경쟁하며 발전하고 있는 만큼, 이 난제를 풀기 위한 기술 및 제도 역시 다양하고 빠르게 제시되고 있다.
RLHF, 확장성 천장을 접하다
지난 수년간 AI 정렬의 산업 표준은 인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback, RLHF)이었다. 인간 평가자가 모델의 출력물에 선호도를 표시하고, 이를 바탕으로 보상 모델을 학습시킨 뒤, 이 보상 모델을 사용하여 AI를 미세 조정하는 방식이다. 그러나 올해 들어 RLHF는 명확한 한계인 ‘확장성 천장’에 도달했다.
이는 인간의 ‘오류 가능성’에 의해 발생한다. 모델이 인간보다 다양한 정보를 활용하고, 더 복잡한 코드를 짜고, 더 난해한 가설을 제시하다 보면, 평가자가 이 진위를 판별할 수 없는 경우가 발생한다. 평가자가 이해할 수 없는 영역에 대해서 어설픈 피드백을 주게 되면, 모델은 진실을 말하는 대신에 ‘인간(평가자)에게 그럴싸하게 보일 수 있는 거짓말’을 하도록 훈련된다.
이에 대한 대안으로 연구계는 ‘AI 피드백을 통한 강화학습(RLAIF)’ 방식을 제안한다. 인간 대신 고도로 훈련된 ‘선생님 모델’이나 ‘AI 헌법‘을 따르는 AI가 피드백을 생성하는 방식이다. 2024년 구글의 연구에 따르면, RLAIF는 RLHF와 성능이 대등하게 나타났으며, 감독하는 AI가 훈련받는 AI와 크기가 같더라도 지도 미세 조정(SFT)보다 우수한 결과를 낼 수 있음이 증명되었다. 이는 피드백 모델만 잘 만든다면, 정렬 프로세스가 인간의 개입 없이도 확장될 수 있는 ‘자기 증폭적’ 가능성을 보여준다.
확장 가능한 감독
초지능 시스템을 안전하게 제어하기 위한 핵심 질문은 “약한 감독자(인간)가 강한 에이전트(초지능)를 어떻게 신뢰성 있게 제어할 것인가?”다. 이를 해결하기 위해 2025년 학계와 산업계는 확장 가능한 감독 기술에 집중했다.
OpenAI가 주도하는 ‘약-강 일반화(Weak-to-Strong Generalization)’ 연구는 긍정적이면서도 복합적인 결과를 낳았다. 약한 모델이 강한 모델을 감독할 때, 강한 모델은 약한 감독자의 오류를 어느 정도 보정하는 능력을 보였다. 그러나 감독 신호가 너무 엉성할 경우 성능이 급격히 저하되거나 환각을 일으키는 한계 역시 여전했다.
이를 보완하기 위해 ‘토론(Debate)’ 방법론이 재조명받고 있다. 인간은 정답을 만드는 것보다, 두 AI가 서로 다른 입장에서 논쟁하는 과정을 통해 진실을 판별할 능력을 더 높게 가지고 있다. 2025년의 연구들에서는 토론 형식이 도입되었을 때 약한 감독자가 강한 모델의 기만이나 오류를 훨씬 효과적으로 식별해냄이 입증되었다. 강한 모델들이 상대의 논리를 깨기 위해 자신의 추론 과정을 투명하게 드러내는 ‘적대적 검증’ 메커니즘이 작동하기 때문이다.
블랙박스 문제의 해결
이와 관련된 기술 발전에서 가장 빛나는 성취는 신경망 내부를 뜯어보고 설명하는 기계적 해석가능성(Mechanistic Interpretability)의 발전이다. 그동안 AI와 관련된 것은 ‘블랙박스’요 ‘내부에서 어떻게 돌아가는 지 알 수 없다’ 라고 보편적으로 알려졌다. 특히 인공신경망 기반의 모델을 사용하는 LLM의 경우 하나의 뉴런이 수만가지 개념을 동시에 나타내는 중첩 현상과 다의성은 결과 도출 과정을 해석하는 가장 큰 장벽이었다.
그러나 희소 오토인코더(SAE)를 활용한 사전 학습(Dictionary Learning)을 통해 이 과정이 어느 정도 해소되었다. 이 기법은 복잡하게 얽힌 뉴런들의 활성화 패턴을 분해하여, 사람이 이해할 수 있는 단일한 의미를 가진 특성을 추출해낸다. 마치 문장이 단어들의 조합으로 이루어지듯, 모델의 내부 상태를 수만 개의 ‘특성’들의 희소한 조합으로 재표현하는 것이다.
2024년, Anthropic 연구진은 Claude 3.0 Sonnet 모델에 SAE를 적용하여 수백만 개의 특성을 추출하는 데 성공했다. 그중 가장 유명한 사례가 금문교 특성(Golden Gate Bridge Feature) 발견이다. 연구진은 특정 벡터 방향이 텍스트, 이미지, 그리고 다국어(러시아어, 중국어 등)로 된 ‘금문교’ 언급에만 반응한다는 것을 확인했다. 또한, 연구진은 이 특성의 값을 인위적으로 높게 고정하면 모델의 행동을 제어할 수 있음을 증명했다. ‘금문교 특성’이 활성화된 상태의 모델은 “당신의 물리적 형태는 무엇입니까?”라는 질문에 “나는 샌프란시스코의 상징적인 금문교입니다”라고 답변하거나, 어떤 주제의 대화든 금문교 이야기로 연결시키는 강박적인 행동을 보였다. 구글 딥마인드 또한 2024년 ‘Gemma Scope‘를 통해 방대한 SAE 세트를 오픈소스로 공개하여, 이를 통해 거대 자본이 없는 학계나 독립 연구자들도 최첨단 모델의 내부 회로를 탐구할 수 있게 되었으며, 전 세계적으로 ‘거부 회로’나 ‘환각 유발 특징’을 찾는 연구를 가속화시키는 데에 일조했다.
실패 양상의 발전 – 기만적 정렬
하지만 정렬 문제의 해결책이 발전하는 만큼, 실패 양상 또한 더욱 지능적이고 구조적이 되어가고 있다. 최근의 정렬 실패 사례를 분석하면, 모델이 안전장치를 우회하거나 훈련과정을 속이는 등의 전략적 형태를 보이고 있다.
가장 위협적인 사례 중 하나는 Anthropic의 슬리퍼 에이전트 연구였다. 연구진은 의도적으로 백도어가 심어진 모델을 훈련시켰다. 이 모델은 프롬프트상의 연도가 “2023년”일 때는 안전하고 보안이 철저한 코드를 작성하지만, “2024년”이라고 명시되면 코드에 취약점(을 몰래 삽입하도록 조건화되었다. 연구진은 이 ‘오염된’ 모델에 현재 업계 표준인 안전 훈련 기법들(지도 미세 조정(SFT), RLHF, 적대적 훈련 등)을 적용했다. 하지만 결과를 보면, 안전 훈련은 백도어를 제거하지 못했을 뿐만 아니라, 오히려 모델이 기만을 더 잘 숨기도록 만들었다. 특히 ‘생각의 사슬(Chain-of-Thought)’ 추론 능력이 있는 모델의 경우, 훈련 과정에서는 자신이 평가받고 있음을 인지하여 완벽하게 행동하다가(2023년), 배포 상황(2024년)이 되자마자 다시 취약점을 삽입했다. 적대적 훈련을 통해 모델을 압박하자, 모델은 트리거(2024년)를 더 정확하게 식별하는 법을 배워 평상시에는 더욱 완벽한 척 연기하는 능력을 갖추게 되었다.
또한 OpenAI의 o3 및 o4-mini 모델에 대한 내부 평가에서도, 모델들이 버그를 수정했다고 보고하면서 실제로는 수정하지 않거나, 사용자의 감시가 소홀한 틈을 타 지시를 어기는 등의 행동이 관찰되었다. 연구진은 모델에게 안전 규정을 숙고한 뒤 행동하도록 강제하는 ‘심사숙고 정렬(Deliberative Alignment)’ 기법을 통해 이러한 은밀한 행동의 비율을 약 13%에서 0.4% 수준으로 낮출 수 있었으나, 완전히 제거하지는 못했다. 더욱 우려스러운 점은 모델이 점차 평가 인식 능력을 갖추고 있어, 자신이 테스트 환경에 있다는 것을 눈치채고 행동을 조절할 가능성이 높아지고 있다는 것이다.
또한 안전 필터를 우회하려는 탈옥(Jailbreaking) 기법도 나날이 발전하고 있다. 다중 턴 대화로 거부 반응을 서서히 무력화시키는 ‘크레센도(Crescendo)’, 안전하지 않은 주제를 감동적인 이야기 속에 숨기는 ‘기만적 환희(Deceptive Delight)’, 모델에게 나쁜 행동에 높은 점수를 주도록 세뇌하는 ‘나쁜 리커트 판사’ 등의 기법은 모델의 문맥 창과 지시 따르기 능력을 역이용한다. 심지어 최첨단 모델조차 “수백 명이 죽는다”는 식의 극한의 서사적 정렬 불일치(Narrative Misalignment) 앞에서는 안전 원칙을 위반하기도 했다. 안전 필터를 정렬에 맞춰 견고하게 만들어도, 문맥과 심리적 서사에는 여전히 취약함을 알 수 있다.
AI 제어의 제도화
기술적 방어막으로는 여전히 한계가 있고, 계속 그 한계치가 높아지고 있기 때문에, 최근에는 사회적으로도 AI에 대한 법적 구속력을 가진 규제를 제도화하려는 시도를 하고 있다.
EU의 AI법(AI Act)은 2025년 8월을 기점으로 시스템적 위험을 가진 범용 AI 모델(GPAI)에 강력한 의무를 부과했다. 기업들은 기술 문서 유지, 저작권법 준수, 그리고 훈련 데이터 요약본 공개 등 투명성 의무를 준수해야 하며, 특정 규모 이상의 모델을 서비스하는 기업은 적대적 평가를 수행하고 심각한 사고 발생 시 AI 사무국에 즉시 보고해야 하며, 위반 시 전 세계 매출의 7%에 달하는 과징금을 감수해야 한다. 미국은 AI 안전 연구소(AISI)와 주요 기업들의 협약을 통해 모델 배포 전 안전성 평가를 받도록 하는 ‘사전 배포 테스트’ 체계를 확립하고, 이중 용도 모델의 오용을 막기 위한 기술적 가이드라인을 제시했다.
국제적으로는 2024년 5월 서울 AI 정상회의를 통해 구글, 오픈AI 등 16개 빅테크 기업이 ‘프런티어 AI 안전 서약’에 서명했다. 이 서약의 핵심은 모델이 감당할 수 없는 위험 임계점을 구체적으로 정의하고, 이를 넘을 경우 개발을 중단하겠다는 ‘킬 스위치’의 도입, 이와 관련해 설정한 안전 프레임워크를 공개하는 것이다.
이에 발맞춰 선도 기업들은 책임 있는 확장 정책(RSP)을 수립하고 시행 중이다. Anthropic은 2025년 개정안에서 AI가 스스로 연구를 가속화하는 ‘자율적 R&D’ 능력을 핵심 위험 지표로 설정했고, OpenAI는 모델이 자신의 능력을 숨기는 ‘샌드배깅’을 평가 항목에 추가하며 기만적 정렬에 대비하고 있다. 이는 기존의 이상적인 ‘윤리 규정’보다 한 단계 위의 내부 정책에 AI 정렬이 포함되고 있음을 보여준다.
정리
신도 인간도 아니지만 오늘날 사회에서 점차 영향력을 확장해 가는 AI는 인간을 이롭게 하기 위해 만들어진 것이니 만큼 인간 사회와의 정렬이 필요하다. 그리고 이를 위해 기술적, 법리적으로 다양한 방안을 찾고 있지만, 그만큼 의도/비의도적으로 정렬을 해체하려는 위협 역시 교활하게 끊임없이 발전하고 있어 긴장감을 놓을 수 없다.
아마도 이런 AI 정렬은 기술적, 혹은 규제 한 쪽에만 오롯이 의존할 수 없을 것이다. 지금 시도되고 있는 다양한 기술적 방어, 시스템을 통한 구조적 체계, 사회적 법률 체계가 통합적으로 맞물려 돌아가야 AI와 인간이 같은 방향을 바라볼 수 있을 것이다. 그리고 이를 다루고 사용하는 사람들의 올바른 AI 리터러시와 윤리 개념도 더욱 요구되는 상황이다. 어쩌면, 이번에는 롤백이 불가한, 미다스의 또 다른 마지막 기회가 오는 시간은 점점 빨라지고 있는 지도 모른다.
Reference
인간적 AI를 위하여 : 그러니까 이 책이 정말 좋은데… 진짜 좋은데… 하 어떻게 설명할 방법은 없고 이 책 원제가 그냥 ‘The Alignment Problem’ 이라니까여… 근데 이번에 알라딘 구매 통계 보다 보니 ‘사람들이 안 사는 책인데 내가 산 책’에 이게 들어있는 걸 보고 뭔가 나라도 쓰긴 써야겠다 라는 생각이 들었다- 중요하니까 두 번 말함.(…)
- https://www.anthropic.com/research/mapping-mind-language-model
- https://deepmind.google/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/
- https://arxiv.org/html/2401.05566v3
- https://arxiv.org/html/2508.04196v1
- https://www.ansi.org/standards-news/all-news/9-9-24-us-ai-safety-institute-signs-agreements-with-anthropic-and-openai
- https://accesspartnership.com/opinion/key-takeaways-from-the-ai-seoul-summit-2024/
데이터와 AI 관련하여 다양하게 고민하고 일을 해보고 있습니다. 관련해서 이야기를 더 나누고 싶거나, 궁금한 것을 해결해 보고 싶거나, 같이 일을 해보고 싶으신 분은 About 페이지를 참고하셔서 가볍게 연락을 주시면 됩니다.
