로컬 AI PC에서 사용할수 있는 AI 모델 정리

로컬 컴퓨터에서 무료로 쓸 수 있는 AI는 크게 로컬 LLM 실행 도구, 로컬 챗 UI, 문서/RAG 도구, 특수 목적 도구로 나눌 수 있습니다. 아래 표에 종류, 용량, 특징, 최소 컴퓨터 사양을 정리했습니다.

로컬 AI 도구 표

종류	도구/모델 예시	용량(대략)	특징	최소 컴퓨터 사양
로컬 실행 엔진	Ollama	프로그램 자체는 작고, 모델은 별도 다운로드	가장 보편적, 명령어로 바로 실행, OpenAI 호환 API 제공	RAM 8~16GB, CPU 가능, GPU 없어도 됨
로컬 실행 엔진	LM Studio	앱은 작고, 모델은 별도 다운로드	GUI가 쉬움, 모델 검색/다운로드/실행 통합	RAM 16GB 권장, GPU VRAM 6GB 이상 권장
로컬 실행 엔진	Jan	앱은 작고, 모델은 별도 다운로드	설치가 쉬운 올인원 앱, 오프라인 사용 가능	RAM 8~16GB, CPU 가능
로컬 실행 엔진	llama.cpp	엔진 자체는 작고, 모델은 별도	로컬 AI 핵심 엔진, CPU/GPU/Apple Silicon 지원	RAM 8GB 이상, CPU 가능
로컬 실행 엔진	KoboldCpp	단일 실행 파일 중심, 모델 별도	GUI+API 포함, 설치 간편, 창작/롤플레이에 강함	RAM 8~16GB, CPU 가능, GPU 있으면 더 좋음
로컬 실행 엔진	GPT4All	앱 + 모델 다운로드	완전 오프라인, 초보자 친화적	RAM 8~16GB, CPU 가능
로컬 실행 엔진	llamafile	단일 파일에 모델 포함 가능	더블클릭만으로 실행 가능, 가장 간편한 편	RAM 8GB 이상, CPU 가능
로컬 실행 엔진	LocalAI	서버형, 모델 별도	OpenAI API 호환 로컬 서버, 개발 연동용	RAM 8~16GB, CPU 가능
챗 UI	Open WebUI	UI 자체는 가벼움, 백엔드 별도	ChatGPT 같은 UI, 문서 업로드/RAG 지원	백엔드 기준으로 RAM 8~16GB+
챗 UI	Msty	앱은 작고, 모델 별도	모델 다운로드부터 대화까지 한 번에	RAM 16GB 권장, GPU 있으면 유리
챗 UI	Cherry Studio	앱은 작고, 모델 별도	깔끔한 UI, 로컬+클라우드 둘 다 지원	RAM 8~16GB
챗 UI	LobeChat	앱/서버형, 모델 별도	플러그인·에이전트 기능 강함	RAM 8~16GB+
챗 UI	LibreChat	웹앱, 백엔드 별도	여러 AI를 한 UI에 통합	RAM 8~16GB+
문서 AI	AnythingLLM	앱은 가볍고, 모델 별도	PDF/문서 넣고 질의하는 RAG 특화	RAM 8~16GB, CPU 가능
터미널 도구	tgpt	매우 작음	CLI에서 바로 사용, 초경량	RAM 적어도 가능, CPU만으로 충분
저사양용 UI	ch.at	매우 가벼움	기능은 적지만 빠르고 가벼움	저사양 PC에서도 가능

텍스트 생성 로컬 AI (LLM)

가장 대중적인 모델들로, 문서 요약, 코딩, 대화 등에 사용됩니다.

종류 (모델명)	특징	모델 용량 (Q4 기준)	최소 사양 (VRAM/RAM)	추천 사양
Llama 4 (8B)	Meta 제작. 한국어 및 코딩 능력 최상위권	약 5GB	8GB VRAM (RTX 3060)	RTX 4060 Ti 16GB
Gemma 4 (9B)	Google 제작. 논리적 추론과 창의적 글쓰기 우수	약 6GB	8GB VRAM / 16GB RAM	RTX 4070 (12GB)
Mistral 7B	가볍고 빠름. 성능 대비 효율이 매우 높음	약 4.5GB	6GB VRAM (GTX 1660)	RTX 3060 12GB
DeepSeek-R1	추론(Reasoning) 특화 모델. 수학/코딩에 강점	약 5-10GB+	12GB VRAM 이상	RTX 3090/4090
Phi-4 (3B)	Microsoft 제작. 매우 작아서 구형 노트북 가능	약 2.2GB	4GB VRAM / 8GB RAM	내장 그래픽 가능

2. 이미지 생성 로컬 AI (Diffusion)

텍스트를 입력하면 이미지를 생성하거나 기존 이미지를 수정합니다.

종류 (모델명)	특징	모델 용량	최소 사양 (VRAM)	추천 사양
FLUX.1 (Lite/Turbo)	2026년 대세. 실사 사진 품질 및 텍스트 렌더링 최상	약 12GB	12GB VRAM	RTX 4080 (16GB)
SDXL (Turbo)	Stable Diffusion XL. 방대한 플러그인(LoRA) 생태계	약 6.5GB	8GB VRAM	RTX 3060 12GB
SD 1.5	구형 모델이나 저사양 최적화 완료. 가장 빠름	약 2-4GB	4GB VRAM	RTX 2060 6GB
Z-Image-Turbo	극강의 속도. 1초 내외로 이미지 생성 가능	약 4GB	6GB VRAM

AI 모델 용량 기준

모델 자체 용량은 보통 파라미터 수와 양자화 수준에 따라 달라집니다. 일반적으로 1B~3B 모델은 2~5GB, 7B~8B 모델은 5~10GB, 13B~14B 모델은 10~15GB, 30B~34B 모델은 20~30GB, 70B 모델은 40~50GB 정도가 필요합니다.

모델 크기	RAM	GPU VRAM	저장 공간	사용감
1B~3B	8GB	불필요	2~5GB	아주 가볍고 빠름
7B~8B	16GB	6GB+ 권장	5~10GB	일상 대화, 간단한 코딩
13B~14B	16GB+	8GB+ 권장	10~15GB	범용 성능이 괜찮음
30B~34B	32GB+	16GB+ 권장	20~30GB	고사양 필요
70B	64GB+	24GB+ 필수	40~50GB	최고급 성능, 매우 무거움