한양대, 대규모 언어 모델 위한 초저정밀도 ‘양자화 인식 지식 증류 학습 기술’ 개발

한양대학교 융합전자공학부 최정욱 교수 연구팀이 생성형 언어 모델 추론 비용을 크게 줄일 수 있는 초저정밀도(삼진 양자화) 언어 모델 양자화 인식 훈련을 위한 지식 증류 기법 알고리즘을 개발했다고, 한양대가 23일 밝혔다.

생성형 언어 모델은 최근 챗 GPT 를 비롯하여 다양한 분야에서 사람의 능력에 버금가는 성능을 보여주면서 많은 관심을 얻고 있다. 하지만, 생성형 언어 모델의 추론 연산을 할 때, 막대한 저장 공간 및 연산 비용이 필요하며, 이를 해결하기 위해 생성형 언어 모델을 위한 모델 압축 기법이 제안되고 있다.

그 중, 가중치 양자화 방식(Weight Quantization) 의 압축 기법은 언어 모델의 구조를 유지 시키면서 모델 가중치를 저장하는데 사용되는 데이터의 정밀도를 낮추는 방식이다. 이 중 3진 양자화(Ternary Quantization) 방식은 모델의 가중치를 -1, 0, 그리고 1까지 총 3가지 값으로만 나타내는 방식이다.

하지만 3진 양자화 방법의 한계는 모델이 가지고 있는 본래의 성능이 크게 떨어진다는 점이 있다. 이를 보완하기 위해, 16비트 부동소수점으로 이루어진 원래의 모델을 ‘선생님 모델’로 삼아, 양자화를 적용한 ‘학생 모델’에 지식 증류 (Knowledge Distillation) 기법을 사용하여, 양자화 인식 학습을 적용하는 방법이 활발히 연구되고 있다. 하지만, 관련된 최신 기법을 사용해도 정확도 하락이 심한 상황이다.

최정욱 교수 연구팀이 개발한 ‘3진 양자화 인식 학습을 위한 토큰 단위 지식 증류 기술’은 생성형 언어 모델이 양자화에 보이는 특성을 기반으로 제안되었고, 양자화로 인해 성능 하락으로 이어지는 영향을 최소화한 기술이다. 이를 통해 기존 지식 증류 기술 대비 더 높은 성능 향상을 끌어낼 수 있었다.

생성형 언어 모델들은 학습 과정에서 입력 문장의 각각의 단어 다음 번째 나올 단어를 예측하는 작업을 수행한다. 이때 특정 단어에 대한 예측 결과를 확률 분포를 통해 관찰했을 때, 특정 단어는 예측하는 단어에 대한 확률값이 낮으면서 다른 다양한 단어에 대한 예측 확률값을 높게 가지고 있는 패턴을 보인다.

연구팀은 이러한 패턴을 고려하여 로짓(logit) 기반 지식 증류 방식에서 토큰 별로 지식 증류가 되는 정도를 다이내믹하게 조절하는 토큰 단위의 로짓 증류 기법 (Token-Scaled Logit Distillation, TSLD)을 제안했다. TSLD 기법을 적용하면 3진 양자화 인식 훈련에서 과적합을 방지할 수 있으며, 최종적으로 양자화 모델이 더 높은 성능을 기록할 수 있는 것으로 나타났다.

연구팀은 다양한 생성형 언어 모델에 대해서 언어 모델링 및 상식 추론 수행 작업을 통해 TSLD 방법론을 검증했다. 그 결과, 3진 양자화를 적용한 모델이 부동 소수점 모델과 비교했을 때, 1 미만의 정확도 하락이 나타나는 최고 성능을 기록했고, 다양한 모델 종류 및 크기에서 일관된 높은 성능을 달성했다.

한양대 대학원 융합전자공학과 김민수(제1저자) 박사과정 학생과 한양대학교 이시화, 이장환, 홍석진 박사과정 학생 및 KT 장두성 상무, 서울대학교 성원용 교수가 함께 참여한 이번 연구(논문명 : Token-Scaled Logit Distillation for Ternary Weight Generative Language Models)는 최고 권위 국제학술대회 ‘신경정보처리시스템학회(NeurIPS) 2023’ 에서 12월에 발표될 예정이다.