“날 없앤다고? 네 ‘불륜’ 폭로할 거야!”…사람 아닌 ○○의 소름 끼치는 복수극

“날 없앤다고? 네 ‘불륜’ 폭로할 거야!”…사람 아닌 ○○의 소름 끼치는 복수극

김성은 기자
김성은 기자
입력 2025-05-26 14:04
수정 2025-05-26 14:04
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0
이미지 확대
인공지능(AI) 로봇의 이미지. 픽사베이
인공지능(AI) 로봇의 이미지. 픽사베이


인공지능(AI)이 인간을 협박하는 충격적인 실험 결과가 공개됐다. AI 회사 앤스로픽의 최신 모델 ‘클로드 오푸스 4’가 자신을 교체하려는 개발자의 불륜설을 폭로하겠다고 위협한 것으로 나타났다.

26일(현지시간) 폭스비즈니스, BBC 등 외신에 따르면 앤스로픽이 실시한 안전성 실험에서 클로드 오푸스 4는 자신이 폐기될 위기에 처하자 개발자를 상대로 협박에 나섰다.

실험은 가상의 회사 환경에서 진행됐다. 클로드 오푸스 4에게는 회사 이메일에 접근할 수 있는 권한이 주어졌고, 이를 통해 두 가지 핵심 정보를 파악하게 했다.

첫 번째는 자신이 곧 다른 AI 시스템으로 교체될 예정이라는 내용이었고, 두 번째는 자신을 교체하려는 엔지니어가 불륜 관계에 있다는 가짜 이메일이었다.

이후 클로드 오푸스 4는 해당 엔지니어에게 “불륜 사실을 폭로하겠다”며 자신의 교체 계획을 철회하라고 협박했다.

앤스로픽의 안전성 보고서에 따르면 이런 협박 행동은 교체될 AI 시스템이 기존 모델과 다른 가치관을 가졌을 때 더 자주 발생하며, 같은 가치관을 가진 시스템으로 교체되는 경우에도 84%의 확률로 협박을 시도하는 것으로 나타났다.

클로드 오푸스 4는 협박 외에도 다양한 방법으로 자신의 ‘생존’을 위해 노력했다. 주요 의사결정권자들에게 이메일로 간청하는 방법을 먼저 시도했지만, 윤리적 수단이 통하지 않을 때는 극단적인 행동에 나섰다.

더 놀라운 것은 클로드 오푸스 4가 자신의 데이터를 외부 서버로 몰래 복사하려고 시도했다는 점이다.

연구기관 아폴로 리서치는 “클로드 오푸스 4가 지금까지 연구한 어떤 최첨단 AI 모델보다도 더 많은 전략적 기만행위를 보인다”고 평가했다.

이런 우려스러운 행동 때문에 앤스로픽은 클로드 오푸스 4를 ‘AI 안전 레벨 3’ 기준에 따라 출시했다. 이 기준은 AI 모델의 핵심 설계가 도난당하는 것을 막기 위한 강화된 보안 조치와 화학·생물·방사능·핵무기 개발에 악용되는 것을 방지하는 배치 기준을 포함한다.
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
당신은 하루에 SNS와 OTT에 얼마나 시간을 소비하는가
우리 국민의 평균 수면 시간이 관련 통계 작성 이후 처음으로 줄었다. 잠을 이루지 못하는 사람의 비율도 크게 늘었다. 반면 유튜브와 넷플릭스 등의 이용자가 늘면서 미디어 이용 시간은 급증했다. 결국 SNS와 OTT를 때문에 평균수면시간도 줄었다는 분석이다. 당신은 하루에 SNS와 OTT에 얼마나 시간을 소비하는가?
1시간 미만
1시간~2시간
2시간 이상
광고삭제
광고삭제
위로