데이터 왜곡 줄이고 ‘본질적 속성’만 학습
국제 학술지 Pattern Recognition 게재
켄텍 연구팀이 개발한 프롬프트 학습 기법 개념도. 기존 방식들은 ‘강아지’라는 클래스 정보만 학습했지만, 제안된 기법은 귀·눈·털 등 강아지의 공통된 속성을 함께 학습한다. 켄텍 제공
한국에너지공과대학교(켄텍)는 13일 이석주 교수 연구팀이 데이터 다양화 과정에서 생길 수 있는 시각적 왜곡을 분석, 비전-언어 모델(VLM)이 이미지의 본질적인 속성만 학습하도록 설계한 새로운 프롬프트 학습 기법을 개발했다고 밝혔다.
CLIP 등 기존의 비전-언어 모델은 이미지와 텍스트를 결합해 사물의 의미를 이해할 수 있지만, 세밀한 속성 구분이 필요한 상황에서는 한계가 있었다.
켄텍 연구팀은 이러한 문제를 해결하기 위해 ‘델타 메타 토큰(Delta Meta Token)’을 도입했다.
이 토큰은 이미지 간의 상대적 변화를 학습해 속성 차이를 정교하게 구분하도록 돕는다. 이를 통해 모델은 데이터 변화에 덜 민감하게 반응하면서도 대상의 클래스에 의미 있는 속성만 학습, 시각적으로 유사한 대상도 속성 단서에 기반해 구별할 수 있다.
예를 들어 기존 방식은 ‘강아지’ 라는 클래스 정보만 학습했지만, 제안된 기법은 귀·눈·털 등 강아지의 공통된 속성을 함께 학습한다. 이를 통해 강아지의 종류나 배경이 달라져도, 본질적인 속성을 인식해 도메인이 다른 데이터에서도 안정적인 성능을 유지한다.
제안된 기법은 사전 학습된 CLIP 모델에 최소한의 파라미터만 추가하는 경량 구조임에도, 11개 벤치마크 데이터셋에서 기존 프롬프트 학습 방법을 능가하며 높은 일반화 성능을 보였다.
특히 새로운 클래스나 도메인이 주어져도 안정적인 인식을 유지해, 자율주행·로봇 비전·산업 영상 이상 검출 등 속성 기반 시각 인식이 요구되는 다양한 분야에 활용될 것으로 기대된다.
공동 제1 저자인 김가현 연구원은 “켄텍 연구실의 자율적이고 협력적인 연구 환경에서 새로운 아이디어를 적극적으로 도전할 수 있는 분위기가 큰 도움이 됐다”며 “앞으로 AI 에이전트 협업 연구를 통해 자율형 지능 로봇의 확장 가능성을 탐구할 계획”이라고 밝혔다.
이 연구(논문명 ‘Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models’)는 산업통상자원부와 한국연구재단의 지원을 받아 수행됐으며, 컴퓨터 비전 및 기계 학습 분야의 국제 저명 학술지 Pattern Recognition (Elsevier)에 10월 23일 온라인 게재됐다.
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
































