최근 챗GPT나 클로드(Claude) 같은 AI를 쓰다 보면 성능은 만족스럽지만, 매달 나가는 구독료나 API 비용이 부담스러울 때가 많습니다. 특히 스스로 생각하고 움직이는 자율 에이전트(OpenClaw 등)를 돌리면 순식간에 수십 달러가 청구되기도 하죠.
이 비용을 0원으로 만들면서도 내 소중한 데이터를 외부 유출 없이 지키는 방법, 바로 로컬 LLM(내 컴퓨터에서 직접 돌리는 AI)입니다. 왕초보도 실전에서 바로 적용할 수 있도록 핵심만 정리했습니다.다.
1. 왜 로컬 LLM을 선택해야 할까?
가장 큰 이유는 역시 비용입니다. 클라우드 모델은 쓸 때마다 돈이 나가지만, 로컬 모델은 전기세만 내면 됩니다. 물론 초기 하드웨어 비용이 들긴 하지만, 장기적으로 에이전트를 계속 굴린다면 훨씬 경제적이죠. 비용 문제 외에도 프라이버시 측면에서 큰 장점이 있습니다. 내 데이터가 외부 서버로 전송되지 않고 온전히 내 컴퓨터 안에서만 처리되니까요. 네트워크 상태와 상관없이 인터넷이 끊겨도 작동한다는 점도 매력적입니다. 물론 성능 면에서는 최상위 클라우드 모델보다 조금 부족할 수 있지만, 최근 오픈소스 모델들의 발전 속도를 보면 웬만한 작업은 충분히 커버가 가능해졌습니다.
- 비용 완전 무료: 전기세 외에는 추가 비용이 없습니다. 하루에 수만 번을 물어봐도 청구서가 오지 않습니다.
- 완벽한 보안: 인터넷 연결 없이도 작동합니다. 회사 기밀이나 사적인 대화가 외부 서버(OpenAI, Google 등)로 전송될 걱정이 없습니다.
- 내 맘대로 튜닝: 내가 원하는 모델을 마음껏 골라 깔고, 속도를 조절할 수 있습니다.
2. Ollama 설치하고 준비하기

로컬 LLM을 돌리려면 Ollama가 가장 편합니다. 마치 Docker를 쓰듯이 모델을 다운로드하고 실행할 수 있게 해주거든요. 복잡한 설정 없이 명령어 한 줄이면 설치가 끝납니다. 맥이나 리눅스 사용자라면 터미널에서 설치 스크립트를 실행하면 되고, 윈도우 사용자는 공식 홈페이지에서 설치 파일을 받으면 됩니다. 서버 환경이라면 Docker 이미지를 사용하는 것도 깔끔한 방법입니다.
무조건 비싼 그래픽카드가 있어야 하는 건 아닙니다. 내 사양에 맞는 모델을 고르는 게 핵심입니다.
| 사양 수준 | 추천 하드웨어 | 추천 모델 크기 | 비고 |
| 입문용 | 램 8GB~16GB 노트북/PC | 1B ~ 3B 모델 | 요약, 간단한 응답 가능 |
| 중급용 | RTX 3060 이상 (VRAM 8GB+) | 7B ~ 8B 모델 | 가장 추천! 웬만한 대화와 코딩 지원 |
| 상급용 | RTX 4090 또는 맥북 M2/M3 Max | 32B ~ 70B 모델 | 클라우드 모델급의 고성능 추론 |
설치가 끝나면 터미널에서 ollama run llama3.3 같은 명령어로 바로 모델을 불러와서 대화를 시작할 수 있습니다. Ollama는 기본적으로 11434 포트에서 API 서버를 열어두기 때문에, OpenClaw 같은 외부 프로그램이 이 주소로 접속해서 말을 걸 수 있게 됩니다.

ollama run llama3.13. 어떤 모델을 써야 할까?
Ollama 라이브러리에는 정말 많은 모델이 있습니다. 그중에서 내 컴퓨터 사양과 용도에 맞는 걸 골라야 합니다. 2026년 2월 기준으로 몇 가지 괜찮은 선택지를 살펴보겠습니다.
먼저 가장 무난한 선택은 Llama 3.3 또는 최신 Llama 4입니다. 범용적인 성능이 좋아서 대화, 요약, 분석 등 다방면에서 준수한 결과를 보여줍니다. 만약 코딩 작업을 주로 시킬 예정이라면 Qwen 3 Coder가 탁월합니다. 코드 생성 능력만큼은 동급 모델 중에서 압도적이라는 평가를 받고 있죠. 추론 능력이 중요한 복잡한 작업을 시킬 때는 DeepSeek-R1 같은 모델이 좋습니다. 생각하는 과정을 거치면서 답을 내놓기 때문에 논리적인 오류가 적은 편입니다.
| 모델 이름 | 특징 (용도) | 명령어 |
| Llama 3.3 | 3.1보다 훨씬 똑똑하지만 훨씬 무겁습니다. (고성능 PC용) | ollama run llama3.3 |
| DeepSeek-R1 | 최근 난리 난 모델로, 수학이나 코딩 등 어려운 문제 풀이에 특화되었습니다. | ollama run deepseek-r1 |
| Qwen2.5-Coder | 코딩만 전문적으로 도와주는 AI입니다. (개발자용) | ollama run qwen2.5-coder |
| Gemma 2 | 구글에서 만든 가벼운 모델입니다. 한국어를 아주 잘합니다. | ollama run gemma2 |
1. 왜 하필 Llama 3.1 인가요?
- 검증된 성능: 메타(페이스북)에서 만든 모델로, 전 세계적으로 가장 많이 쓰입니다. 한국어 대화도 꽤 준수하고 논리력도 좋습니다.
- 가성비:Llama 3.3 4.9GB짜리 모델은 일반적인 가정용 PC(램 16GB 내외)에서 가장 빠르고 안정적으로 돌아가는 최적의 사이즈입니다.
- 호환성: 나중에 연결할 OpenClaw나 다른 프로그램들이 가장 기본적으로 지원하는 모델이라 설정이 쉽습니다.
Ollama는 로컬 AI를 돌려주는 가장 쉽고 강력한 엔진입니다.

- 설치:Ollama 공식 홈페이지에서 윈도우/맥용 파일을 받아 설치합니다.
- 모델 다운로드: 터미널(또는 CMD)을 열고 아래 명령어를 입력합니다.
ollama run llama3.3(범용적인 최고의 모델)ollama run qwen2.5-coder:7b(코딩을 시킬 때 최고)ollama run deepseek-r1:8b(복잡한 논리 문제를 풀 때)
모델 크기도 중요한데, 보통 뒤에 붙은 B(Billion) 숫자가 클수록 똑똑하지만 그만큼 무겁습니다. 그래픽카드 메모리(VRAM)가 넉넉하지 않다면 8B 정도의 모델을 추천하고, 사양이 좀 받쳐준다면 32B나 70B 모델에 도전해 볼 만합니다. 양자화(Quantization) 버전인 Q4_K_M을 선택하면 성능 저하는 거의 없으면서 메모리 사용량을 절반 이하로 줄일 수 있으니 참고하세요.
4. OpenClaw와 연동하기
OpenClaw는 Ollama를 별다른 플러그인 없이 바로 지원합니다. 설정이 정말 간단한데, 환경 변수나 설정 파일에 API 키를 넣어주기만 하면 됩니다. 사실 로컬에서 돌리는 거라 진짜 API 키는 필요 없지만, 형식상 아무 문자열이나 넣어주면 작동합니다.
OpenClaw는 Ollama를 ‘기본’으로 지원합니다. 설정 파일 한 줄만 고치면 끝납니다.
설정 파일 수정 (openclaw.json):
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434/api",
"apiKey": "none"
}
},
"defaultModel": "ollama/llama3.3"- 확인법: 터미널에
openclaw models list를 입력해서 내가 받은 모델 이름이 잘 뜨는지 확인하세요. 이제 OpenClaw는 돈을 한 푼도 쓰지 않고 내 컴퓨터의 자원으로만 추론을 시작합니다.
설정 파일인 openclaw.json에서 agents 섹션의 기본 모델을 ollama/llama3.3 처럼 지정해 주면 됩니다. 이렇게 하면 에이전트가 수행하는 모든 기본 작업이 로컬 모델을 통해 처리됩니다. 만약 Ollama가 기본 포트가 아닌 다른 주소에서 실행 중이라면 providers 설정에서 baseUrl만 바꿔주면 됩니다.
5. 자동으로 모델 찾아내기
OpenClaw의 편리한 점 중 하나는 Ollama에 설치된 모델들을 자동으로 감지한다는 것입니다. 터미널에서 openclaw models list 명령어를 쳐보면 현재 내 컴퓨터에 어떤 모델들이 깔려 있는지, OpenClaw가 어떤 모델을 사용할 수 있는지 목록이 쭉 뜹니다. 굳이 설정 파일에 모델 이름을 일일이 등록하지 않아도, Ollama에서 모델을 다운로드하기만 하면 OpenClaw가 알아서 인식하고 사용할 준비를 마칩니다.
6. 로컬과 클라우드 섞어 쓰기 (하이브리드 전략)
무조건 로컬만 고집할 필요는 없습니다. 간단한 번역이나 요약, 코드 생성은 로컬 모델에게 맡겨서 비용을 0으로 만들고, 아주 복잡한 논리적 추론이나 창의적인 글쓰기가 필요할 때만 유료 클라우드 모델(Claude나 GPT)을 부르는 방식이 효율적입니다.
OpenClaw에서는 대화 도중에도 명령어로 모델을 바꿀 수 있습니다. 평소에는 로컬 모델로 작업하다가 막히는 부분이 생기면 슬래시 커맨드로 클라우드 모델로 전환해서 해결하고, 다시 로컬로 돌아오는 식이죠. 이렇게 운영하면 전체 API 비용을 90% 이상 절감하면서도 결과물의 품질은 유지할 수 있습니다.
7. 성능을 끌어올리는 설정들
로컬 모델이 너무 느리다면 몇 가지 설정을 만져볼 필요가 있습니다. 먼저 Flash Attention 기능을 켜면 긴 문맥을 처리할 때 속도가 빨라지고 메모리 효율도 좋아집니다. 환경 변수로 OLLAMA_FLASH_ATTENTION=1을 주면 됩니다.
모델이 자꾸 메모리에서 내려가서 대화할 때마다 로딩 시간이 걸린다면 keep-alive 설정을 늘려보세요. 기본값은 5분인데, 이걸 1시간이나 무제한(-1)으로 설정하면 모델이 항상 메모리에 상주해 있어서 언제 말을 걸어도 즉답을 해줍니다.
그래픽카드가 여러 장 있다면 병렬 처리를 설정해서 동시에 여러 요청을 처리하게 만들 수도 있습니다. Nginx 같은 로드 밸런서를 앞단에 두고 여러 Ollama 인스턴스를 띄우면 처리량을 두 배, 세 배로 늘릴 수 있죠.
8. 실전에서는 이렇게 씁니다
완전 오프라인 비서로 활용하는 경우가 있습니다. 인터넷이 차단된 폐쇄망 환경에서 보안이 중요한 문서를 요약하거나 분석할 때 유용합니다. 외부로 데이터가 나갈 걱정이 없으니까요.
개발자라면 코딩 전용 비서로 쓰기 좋습니다. Qwen Coder 같은 모델을 띄워두고 코드 리뷰를 시키거나 유닛 테스트 코드를 짜달라고 하면 꽤 쓸만한 결과를 줍니다. 하루 종일 코드를 물어봐도 추가 비용이 없으니 부담 없이 시킬 수 있다는 게 정말 큽니다.
24시간 돌아가는 자동화 봇으로도 제격입니다. 매일 아침 뉴스를 요약하거나 서버 상태를 체크해서 보고하는 반복적인 작업들은 굳이 비싼 클라우드 모델을 쓸 이유가 없습니다. 가벼운 로컬 모델 하나만 띄워두면 전기세 정도만으로 나만의 성실한 직원을 두는 셈입니다.
9. 필요한 하드웨어 사양
어느 정도 사양이 필요한지는 어떤 모델을 돌리느냐에 따라 다릅니다. 가벼운 3B 모델이나 7B 모델을 양자화해서 돌린다면 일반적인 게이밍 노트북이나 GTX 1060 수준의 그래픽카드로도 충분합니다. 하지만 32B 이상의 고성능 모델을 원활하게 돌리려면 VRAM이 24GB 정도 되는 고사양 그래픽카드가 필요합니다.
의외로 맥북 프로 같은 애플 실리콘 기기들이 로컬 LLM 돌리기에 아주 좋습니다. 통합 메모리 구조라서 시스템 메모리를 그래픽 메모리처럼 쓸 수 있거든요. 램이 64GB 이상인 맥북이라면 웬만한 데스크탑보다 훨씬 큰 모델을 여유롭게 구동할 수 있습니다.
10. 자주 겪는 문제 해결
Ollama 서버에 연결이 안 된다는 오류가 뜨면 먼저 백그라운드에서 Ollama가 실행 중인지 확인해 보세요. 가끔 포트가 겹치거나 방화벽 문제일 수도 있습니다. 모델 로딩이 너무 오래 걸린다면 위에서 말한 keep-alive 설정을 꼭 확인해 보시기 바랍니다.
VRAM 부족 오류(OOM)가 뜬다면 욕심을 조금 버려야 합니다. 더 작은 모델을 쓰거나, 양자화 단계를 더 높여서 모델 크기를 줄여보세요. 아니면 GPU 레이어 할당량을 조절해서 일부 연산을 CPU에게 넘기는 방법도 있지만, 속도는 많이 느려질 수 있습니다.
11. 클라우드 백업으로 z.ai 활용하기
로컬 모델만으로는 한계가 느껴질 때, z.ai(GLM) 같은 서비스를 서브로 두는 것도 좋은 전략입니다. 특히 GLM-4.5-flash 모델은 무료 티어를 제공해서 비용 부담 없이 클라우드 백업용으로 쓰기 딱 좋습니다. 중국어와 한국어 성능도 준수한 편이라 다국어 처리가 필요할 때 로컬 모델의 부족한 점을 잘 메워줍니다.
OpenClaw나 LiteLLM을 통해 연결할 수 있는데, OpenAI 호환 API 형식을 따르고 있어서 설정이 어렵지 않습니다. 평소엔 로컬 Ollama를 쓰다가, 좀 더 똑똑한 친구가 필요하거나 로컬 컴퓨터가 너무 바쁠 때 z.ai로 요청을 넘기도록 구성하면 비용과 성능 두 마리 토끼를 다 잡을 수 있습니다.
이렇게 OpenClaw와 Ollama를 조합하면 내 컴퓨터가 강력한 AI 서버로 변신합니다. 처음엔 하드웨어 사양이나 설정이 좀 복잡해 보일 수 있지만, 한번 구축해 두면 추가 비용 없이 마음껏 AI를 부릴 수 있다는 자유로움이 정말 큽니다. 가벼운 작업부터 하나씩 로컬로 옮겨보세요. API 비용 청구서를 볼 때마다 흐뭇해지실 겁니다.

