거대 언어 모델(LLM)을 내 PC에? 4비트 GPTQ 양자화 방법 정리
거대 언어 모델(LLM)은 수십 GB에 달하고 그 AI 모델 파일은 일반적인 그래픽카드(GPU) 메모리에 담기엔 너무나 큽니다. 이때 필요한 것이 바로 양자화(Quantization)입니다. 특히 오늘 우리가 함께 알아볼 방식은 GPTQ 양자화(Generalized Post-Training Quantization) 기법입니다. 이 방식은 모델을 처음부터 다시 학습할 필요 없이, 이미 학습이 완료된 모델의 가중치(Weight)를 정밀하게 분석하여 16비트(또는 bf16)의 무거운 데이터를 4비트의 가벼운 데이터로 압축하는 […]