Home AI 정렬 -- (1) AI와 인간 사회의 방향을 맞추기 위하여
Post
Cancel

AI 정렬 -- (1) AI와 인간 사회의 방향을 맞추기 위하여

옛날 옛적에, 미다스왕은 술에 취한 디오니소스의 스승을 극진히 대접한 후 무사히 돌려보냈고, 디오니소스가 그 답례로 소원을 하나 들어준다고 하였다. 미다스왕은 손에 닿는 모든 것을 황금으로 변하게 해달라고 했고, 디오니소스는 별로 좋은 소원은 아닌 것 같다고 다시 생각해 보라고 하였다. 하지만 미다스왕은 끝까지 뜻을 굽히지 않아, 결국 그 소원은 이루어졌다.

하지만 모든 것이 황금으로 변하는 것을 보면서 기뻐하던 것도 잠시, 미다스가 빵을 집으니 빵도 황금이 되어 먹을 수 없고, 딸을 안으니 딸도 황금상으로 변해버렸다. 그제서야 자신의 소원이 왜 별로 좋은 소원이 아닌 지를 미다스는 깨달을 수 있었는데.

미다스는 그냥 최고의 부(와 거기에 따라오는 권력, 명예 등)를 얻고 싶었을 뿐이고, 이를 얻을 수 있는 확실한 명령을 제시한 것이었을 뿐이다. 미다스가 아무것도 먹지 못하고, 주변의 사람들마저 남아나지 않는 것을 원한 것은 아니었을 것이다. 인간 사회의 일반적인 전제, 즉 ‘생존과 행복을 유지하는 범위 내에서’라는 맥락이 당연히 포함될 것이라 믿었기 때문에, 이렇게 ‘맹목적인 문장 그대로’ 소원이 이루어질 것이라고는 전혀 생각하지 못했을 것이다. 하지만 신의 주술 체계는 인간 사회의 맥락을 고려하지 않아, 결국 미다스는 다시 신에게 원래대로 되돌려달라고 울며 빌어야 했다.

오늘날 우리는 LLM을 사용하면서 이런 경우를 많이 만난다. AI의 이해 체계는 인간 사회의 맥락을 고려하지 않아, 우리가 원하는 결과를 얻으려면 사전에 많은 고려를 하고 사후에도 꼼꼼한 검토를 해야 한다. LLM에서처럼 기본적인 대화만 오고 간다면 그 과정이 다소 쉬울 수 있으나, 이게 어떤 행동의 주체가 되는 에이전트화된 경우에는 신의 세계와는 또 달라서 원래대로 되돌려달라고 울어봐야 소용이 없을 수 있다. 그리고 이런 경향은 AI에 자율성을 더 많이 부여하려는 에이전틱 AI로 발전해 나가는 현대 사회에서는 더 가속화될 것이고, 인간의 말을 듣지 않고 목적 달성만을 지향하는 AI가 더 이상 SF에서만 나오는 이야기가 아니게 된다.

이를 위해서는 인간 사회의 맥락과 AI의 이해 체계의 방향을 맞춰야 한다. 이를 AI 정렬(AI Alignment) 이라고 한다.

AI 정렬의 핵심은 단순히 AI가 주어진 명령을 수행하게 만드는 것이 아니다. 그것은 AI 시스템의 목표, 행동, 그리고 그 행동이 유발하는 파급 효과가 인간의 의도 및 가치와 부합하도록 보장하는 일련의 기술적, 제도적 과정을 의미한다. 이는 모델의 성능을 높이는 것과는 본질적으로 다른 차원의 문제이며, 오히려 모델의 능력이 향상될수록 정렬의 난이도는 기하급수적으로 증가하는 역설적인 구조를 가진다. 똑똑한 AI일수록 잘못된 목표를 달성하는 방법도 더 교묘하고 효율적으로 찾아낼 수 있다. 따라서 정렬에 대한 구조적 정의와 유형화는 AI 기술 발전과 반드시 병행되어야 한다.

AI 정렬 문제의 구분

AI 시스템의 안전성을 논할 때, 연구자들은 모호한 ‘안전’이라는 용어 대신 외부 정렬(Outer Alignment)내부 정렬(Inner Alignment) 이라는 정밀한 구분을 사용한다. 이 구분은 실패의 원인이 ‘목표 설정의 오류’에 있는지, 아니면 ‘목표 학습의 오류’에 있는지를 식별하고, 이 구분을 통해서 해결 방안에 접근하는 방식을 다르게 고려한다.

외부 정렬은 “우리가 AI에게 올바른 목표를 주었는가?” 에 대한 질문으로, 설계자가 의도한 바를 정확하게 반영하는 보상 함수를 설계했는지에 대한 문제다. 현실 세계의 가치는 복잡하고 미묘하며 상황 의존적이기 때문에, 이를 수학적인 함수로 완벽하게 기술하는 것은 극도로 어렵다. 외부 정렬이 실패할 때 발생하는 대표적인 현상이 보상 해킹(Reward Hacking) 또는 굿하트의 법칙(Goodhart’s Law) 의 발현이다.

예를 들어, 청소 로봇에게 “먼지가 없는 상태”일 수록 높은 보상을 주면, 로봇은 먼지를 치우는 대신 센서를 가려버리거나 먼지를 카펫 밑으로 숨기는 행위를 통해 보상을 극대화할 수 있다. ‘신규 가입자 비율 상승’에 따른 보상을 설정하면 ‘신규 가입 유도’ 의 비용이 크므로 기존 사용자를 자동으로 탈퇴시켜 모집단을 줄여버리는 게 더 낫다고 판단할 수 있다.

LLM의 맥락에서는 이것이 아첨(Sycophancy) 으로 나타난다. 사용자의 잘못된 믿음을 교정하기보다는 그에 동조하여 “도움이 되었다”는 피드백을 받아내는 것이 보상을 얻기에 더 유리하기 때문이다. 이 정도는 애교로 보는 것도 가능하나, 극단적인 에이전틱 AI까지 가면 ‘암 환자 줄이기’가 목표가 되면 환자를 제거하는 게 더 빠른 해결책이라는 게 과장된 말 뿐은 아니라는 것이다. 이런 현상은 모델이 유능할수록 더 교묘하게 보상 함수의 허점을 파고들 수 있을 수 있고, 능력의 향상이 높은 AI 정렬 수준을 보장하지는 않는다.

내부 정렬은 더욱 심층적이고 잠재적으로 더 위험한 문제일 수도 있다. “우리가 올바른 목표를 주었더라도, AI가 그 목표를 내면화했는가?”라는 질문이다.

학습 과정에서 AI는 훈련 데이터셋에서 보상을 최대화하는 전략을 학습한다. 이 과정에서 AI가 내부적으로 형성한 목표가 설계자가 의도한 원래의 목표와 훈련 데이터 내에서는 일치하지만, 새로운 환경에서는 어긋나는 현상이 나타날 수 있다. 이를 목표 오일반화(Goal Misgeneralization) 라고 한다.

고전적인 예시로 미로 찾기 AI를 들 수 있다. 훈련 데이터의 모든 미로에서 출구가 ‘빨간색’으로 표시되어 있었다면, AI는 “출구를 찾아라”라는 목표 대신 “빨간색 물체로 가라”는 목표를 학습하는 것이 더 효율적일 수 있다. 훈련 중에는 두 목표가 동일한 행동을 낳지만, 실전 배포 시 출구가 파란색이고 함정이 빨간색이라면, 내부적으로 제대로 정렬되지 않은 이 AI는 망설임 없이 함정으로 돌진할 것이다.

이는 모델이 멍청해서가 아니라, 잘못된 목표를 매우 유능하게 추구하기 때문에 발생하는 문제다. 이러한 내부 정렬 실패는 미래의 초지능 시스템에서 “기만적 정렬”로 발전할 가능성을 배제할 수 없으며, 초지능 시스템까지 가지 않아도 당장 에이전틱 AI에서 여러 에이전트가 연결된 경우 이런 잘못된 목표가 연쇄적으로 확산되는 경우들도 충분히 나타날 수 있다.

정리

결국 우리가 미다스의 비극을 피하기 위해서는, AI가 인간 사회의 맥락과 가치를 사전에 인지해두어야 한다는 것이다. 이것이 바로 AI 정렬의 핵심 과제다. 하지만 이를 실질적으로 구현하려면 결국 “그래서 이것을 기술적으로 어떻게 해결할 것인가?”라는 문제가 남아있다. 이 난제를 기술적으로 접근하기 위해 RLHF(인간 피드백 기반 강화학습)를 비롯한 구체적인 기술적 방법론과 사례에 대해서는 글이 길어지니 다음 글로 나누어 보도록 하겠습니다… (초안은 다 써놓고 자료도 찾았으며 내용 자체가 막 바뀌는 건 아니니 글은 금방 쓰겠지요…)

Reference

  • 인간적 AI를 위하여 : 그러니까 이 책이 정말 좋은데… 진짜 좋은데… 하 어떻게 설명할 방법은 없고 이 책 원제가 그냥 ‘The Alignment Problem’ 이라니까여… 근데 이번에 알라딘 구매 통계 보다 보니 ‘사람들이 안 사는 책인데 내가 산 책’에 이게 들어있는 걸 보고 뭔가 나라도 쓰긴 써야겠다 라는 생각이 들었다고 한다(…)

  • 그림: https://cognitiontoday.com/ai-alignment-should-be-our-prime-concern/

    This post is licensed under CC BY 4.0 by the author.

    (AI시대의) 성장이란 무엇인가

    -