한양대 서재홍 교수팀, 상용 얼굴 인식 시스템 ‘1회성 공격’ 가능성 최초 규명... NeurIPS 2025서 발표
한양대학교 서재홍 교수 연구팀이 개발한 상용 얼굴 인식 시스템 신규 공격 기법이 세계 최고 권위의 인공지능 학회 ‘NeurIPS 2025’에 채택됐다고 밝혔다. 연구팀은 오는 12월 5일 미국 샌디에이고에서 열리는 본 학회에서 연구 성과를 발표할 예정이다.
딥러닝 기반 얼굴 인식 기술은 금융, 출입통제, 공공안전 등 다양한 분야에서 핵심 인증 기술로 활용되고 있으나, 기존 공격 연구들은 실제 서비스 환경에서 위협이 될 수준의 성공률을 확보하지 못했다는 한계를 가지고 있었다. 대부분의 공격 기법은 수백~수천 번의 반복 질의를 필요로 했으며, 원본 얼굴을 사용하지 않은 상태에서 완전히 다른 얼굴로 특정 사용자를 사칭하는 공격은 사실상 불가능한 것으로 여겨져 왔다.
서재홍 교수 연구팀은 이러한 문제를 해결하기 위해 얼굴 인식 모델이 사람의 얼굴을 ‘특징 공간(feature space)’에 어떻게 배치하는지에 대한 근본적 구조 분석에 착수했다. 연구팀은 성별·인종 등 특정 속성을 공유한 얼굴들이 모델 내부에서 하나의 영역을 형성한다는 공통적 패턴을 발견했고, 이 구조적 특성이 얼굴 인식 전반에 걸친 잠재적 취약성으로 이어질 수 있다는 점에 주목했다. 이러한 분석을 바탕으로 반복적인 시도 없이 단 한 번의 질의만으로도 공격이 이루어질 수 있다는 가능성을 확인하며 연구를 본격적으로 수행했다.
연구팀은 이러한 구조 분석을 바탕으로 100장의 얼굴 이미지를 한 번에 제출하는 ‘1회성 비적응(non-adaptive) 질의’만으로 특정 사용자를 사칭하는 공격에 성공하는 새로운 기법을 구현했다. 생성된 얼굴들은 원본 사용자와 전혀 닮지 않았음에도, 상용 얼굴 비교 서비스는 ▲기본 판별 기준(0.8)에서 93% 이상, ▲법 집행 수준의 매우 엄격한 기준(0.99)에서도 최대 13.7%의 높은 비율로 공격을 허용했다. 이는 기존 연구에서 사실상 불가능했던 “원본 얼굴 없이 전혀 다른 얼굴로 특정 사용자를 사칭하는 공격”을 실제 상용 서비스 수준에서 실현했다는 점에서 의미가 크다.
또한 연구팀은 얼굴 이미지가 아닌 사물·배경과 같은 일반 이미지로도 공격이 성립하는 사례를 발견했다. 이는 문제의 근원이 시각적 유사성이 아닌, 딥러닝 기반 특징 공간 자체가 가지는 수학적·구조적 성질에서 비롯되는 취약성임을 분명히 보여주는 결과다. 연구팀은 서로 다른 구조의 모델과 다양한 환경에서 실험을 진행했으며, 어떤 모델을 사용하더라도 속성이 특정 방향으로 군집하는 동일한 패턴이 반복적으로 나타나는 것을 확인했다.
서재홍 교수는 “얼굴 인식 기술이 매우 높은 정확도를 보인다는 이유로 안전하다고 인식하는 경우가 많지만, 이번 연구는 그 내부에 존재하는 구조적 취약점을 수학적으로 규명했다는 점에서 중요하다”며 “특히 반복적인 공격 과정 없이 단 한 번의 시도로 사칭이 가능하다는 결과는 실제 보안 서비스 관점에서 매우 큰 의미를 가진다”고 말했다.
이어 “본 연구는 딥러닝 기반 인식 시스템이 가진 한계를 근본적으로 이해하는 데 목적이 있으며, 이러한 분석이 앞으로 더욱 안전한 인공지능·인식 시스템 설계로 이어지기를 기대한다”고 밝혔다.
이번 연구는 문화체육관광부가 추진하는 ‘글로벌 저작권 현안 신속 대응 사업’ 연구개발 프로그램(RS-2024-00332210)의 지원을 받아 수행됐다. 해당 연구는 김선필(제1저자), 백승훈, 황찬우, 김민수, 서재홍(교신저자)으로 구성된 한양대 자연과학대학 수학과 및 자연과학연구소 연구진이 주도했으며, 논문 「Non-Adaptive Adversarial Face Generation」은 올해 12월에 미국 샌디에고에서 개최되는 The 39th Conference on Neural Information Processing Systems (NeurIPS 2025)에서 발표될 예정이다.