Ollama 활용법 총정리: 로컬 LLM으로 개발 생산성을 높이는 5가지 실전 방법

Ollama 설치 후 터미널 채팅에서 끝내기 아깝다면? Modelfile 커스텀 모델 생성, Python API 연동, VSCode 무료 AI 코딩 어시스턴트, n8n 자동화 연결, RAG 지식베이스 구축까지 — Ollama 로컬 LLM 활용법 5가지를 코드와 함께 Ollama 활용법입니다.

로컬 LLM 실행 도구로 Ollama를 설치한 뒤, 터미널 채팅 몇 번 해보고 끝내기엔 너무 아깝습니다. 성능 좋은 게임기를 사놓고 전원만 켜본 느낌이랄까요. 이번 글에서는 Ollama 활용법을 사용자 입장에서 정리했습니다. 단순 채팅을 넘어 실무와 사이드 프로젝트에 바로 녹여낼 수 있는 방법들을 코드 예시와 함께 소개합니다.

1. Ollama Modelfile로 나만의 커스텀 AI 페르소나 만들기

Ollama 활용법 중 가장 매력적인 기능은 단연 Modelfile입니다. 기존 오픈소스 모델(Llama 3.2, Mistral, Qwen 등)을 베이스로 불러온 뒤, 내가 원하는 설정을 덧입혀 나만의 로컬 AI 모델을 새로 굽는 방식입니다.

매번 “너는 친절한 업무 자동화”라고 말하는 대신, 아예 그 성격을 가진 모델을 한 번만 만들어두면 됩니다.

Ollama Modelfile 예시 (한국어 코딩 어시스턴트)

# 사용할 기본 모델
FROM qwen2.5-coder:1.5b

# 시스템 프롬프트 설정 (페르소나 부여)
SYSTEM """
당신은 유능한 파이썬 개발자입니다. 
모든 답변은 한국어로 작성하며, 코드는 간결하고 효율적이어야 합니다.
"""

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

파일을 저장한 뒤 아래 명령어 한 줄로 커스텀 모델을 생성할 수 있습니다.

ollama create my-dev-assistant -f ./Modelfile
ollama run my-dev-assistant

temperature를 낮게 설정하면 답변 일관성이 높아지고, num_ctx를 늘리면 더 긴 코드도 한 번에 분석할 수 있습니다. Ollama Modelfile 커스터마이징은 팀 내 공통 AI 어시스턴트를 표준화할 때도 아주 유용합니다.

Makefile 예제

Modelfile을 이용해 모델을 빌드, 실행, 삭제하는 과정을 자동화하는 Makefile입니다. 파일명을 Makefile로 저장한 후 터미널에서 명령어를 사용하세요.

# 변수 설정
MODEL_NAME = my-custom-model
MODEL_FILE = Modelfile

.PHONY: all build run clean list

# 기본 실행 (빌드)
all: build

# 1. 모델 빌드
build:
	@echo "Ollama 모델 빌드를 시작합니다..."
	ollama create $(MODEL_NAME) -f $(MODEL_FILE)
	@echo "빌드 완료: $(MODEL_NAME)"

# 2. 모델 실행
run:
	@echo "모델을 실행합니다..."
	ollama run $(MODEL_NAME)

# 3. 생성된 모델 삭제
clean:
	@echo "모델을 삭제합니다..."
	ollama rm $(MODEL_NAME)

# 4. 모델 목록 확인
list:
	ollama list

# 5. 모델 정보 보기
show:
	ollama show $(MODEL_NAME)

3. 사용 방법

터미널에서 아래 명령어들을 입력하여 간편하게 관리할 수 있습니다.

모델 빌드: make build (Modelfile을 읽어 my-custom-model을 생성합니다.)
모델 대화 시작: make run
모델 삭제: make clean
현재 모델 목록 확인: make list

4. 주요 특징 분석

자동화: 매번 ollama create ... 명령어를 길게 입력할 필요 없이 make 명령어 하나로 처리가 가능합니다.
가독성: MODEL_NAME 변수만 수정하면 다른 이름의 모델도 쉽게 관리할 수 있습니다.
정리: .PHONY를 사용하여 파일 이름과 명령어의 충돌을 방지하고 명확한 워크플로우를 제공합니다.

2. Ollama API 연동으로 나만의 AI 앱 개발하기

터미널 검은 화면에서만 대화하는 건 분명히 한계가 있습니다. Ollama를 실행하면 백그라운드에서 로컬 HTTP 서버가 자동으로 올라옵니다. 이 API가 OpenAI의 API 규격과 거의 호환되기 때문에, Python·Node.js 등 익숙한 언어로 바로 AI 기능을 붙일 수 있습니다.

Python으로 Ollama API 연동하기

import requests

def ask_ollama(prompt: str, model: str = "llama3.2") -> str:
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    )
    return response.json()["response"]

# 코딩 테스트 문제 자동 생성 예시
result = ask_ollama(
    "Python 중급 난이도의 재귀 함수 코딩 테스트 문제를 하나 만들어줘."
)
print(result)

Ollama API Python 연동 한 가지만 익혀도 활용 폭이 크게 넓어집니다.

특정 언어와 난이도를 입력받아 코딩 테스트 문제를 자동 생성하는 CLI 도구
Node.js Express 서버에서 들어오는 요청을 Ollama로 넘겨 실시간 텍스트 데이터 가공
사내 Slack 봇에 연결해 자주 묻는 기술 질문에 자동으로 초안 답변 제공

외부 API 비용이 전혀 발생하지 않고, 데이터가 외부 서버로 전송되지 않는다는 점이 로컬 LLM API 연동의 가장 큰 장점입니다.

3. VSCode Ollama 확장 프로그램으로 무료 AI 코딩 어시스턴트 구축하기

VSCode Ollama 연동을 활용하면 비용 없이 AI 코딩 어시스턴트를 쓸 수 있습니다. 마켓플레이스에서 Ollama 연동 플러그인(예: Continue, Twinny 등)을 설치하고, 코딩 특화 모델인 qwen2.5-coder나 codellama를 연결하면 됩니다.

# 코딩 특화 모델 설치
ollama pull qwen2.5-coder
ollama pull codellama

설정 후 사용할 수 있는 기능:

인라인 자동완성: 코드 작성 중 잠시 멈추면 다음 내용을 자동으로 추천
주석 기반 코드 생성: // 로그인 기능 구현, JWT 토큰 반환 처럼 주석으로 설명하면 코드 작성
선택 코드 리팩터링: 블록 선택 후 단축키로 즉시 개선안 요청

상용 클라우드 서비스 대비 속도가 느릴 수 있지만, 내 코드가 외부 서버로 전송되지 않는다는 점은 회사 보안 정책상 AI 사용이 제한된 환경에서 특히 강력한 대안이 됩니다. 로컬 LLM 무료 코딩 어시스턴트를 찾는 분들께 가장 실용적인 선택지입니다.

4. n8n · LangFlow와 Ollama 연동으로 AI 자동화 비용 제로 만들기

n8n, LangFlow, Flowise 같은 노코드·로우코드 자동화 툴을 쓸 때 가장 부담되는 게 LLM API 비용입니다. 토큰 단위로 과금되다 보니 워크플로우를 자유롭게 실험하기가 어렵습니다.

Ollama n8n 연동은 이 문제를 완전히 해결합니다. 이 도구들은 모델 선택 시 OpenAI 대신 Ollama를 선택하는 옵션을 지원하고 있으며, 로컬 서버 주소(http://localhost:11434)만 입력하면 연결됩니다.

Ollama + n8n 자동화 워크플로우 예시

[RSS 뉴스 수집] → [Ollama 요약 요청] → [슬랙/이메일 발송]
[GitHub 이슈 수신] → [Ollama 우선순위 분류] → [Jira 티켓 자동 생성]
[코드 리뷰 요청] → [Ollama 초안 작성] → [PR 코멘트 등록]

집에 GPU가 있는 PC가 한 대 있다면, 비용 걱정 없이 AI 자동화 워크플로우를 무제한으로 실험할 수 있습니다. Ollama 무료 자동화 환경을 구성하는 데 가장 빠른 경로입니다.

5. Ollama + PostgreSQL pgai로 RAG 로컬 지식베이스 구축하기

가장 심화된 Ollama 활용법은 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템 구축입니다. PostgreSQL에 pgai 확장을 추가하면, Ollama가 텍스트를 벡터 데이터로 변환(임베딩)하는 역할을 수행합니다.

Ollama 임베딩 API 호출 예시

import requests

def get_embedding(text: str) -> list[float]:
    response = requests.post(
        "http://localhost:11434/api/embeddings",
        json={
            "model": "nomic-embed-text",   # 임베딩 전용 경량 모델
            "prompt": text
        }
    )
    return response.json()["embedding"]

# 문서를 벡터로 변환 후 PostgreSQL에 저장
embedding_vector = get_embedding("Ollama API 연동 방법")

이를 활용하면 구축할 수 있는 것들:

사내 문서 검색기: 팀 위키, 컨플루언스 문서를 로컬 벡터 DB에 인덱싱
개인 메모장 챗봇: Obsidian, Notion 내보내기 파일을 AI로 검색
코드베이스 Q&A: 대형 레포지토리를 임베딩해두고 자연어로 질문

핵심은 개인 정보와 회사 기밀 문서가 외부 AI 서버에 전혀 전송되지 않는다는 것입니다. Ollama RAG 구축은 처음엔 임베딩 개념이 낯설 수 있지만, 한번 세팅해두면 나만의 안전한 지식 베이스를 영구적으로 운용할 수 있습니다.

목표	추천 활용법	핵심 키워드
나만의 AI 성격 부여	Modelfile 커스텀 모델	Ollama Modelfile 만들기
앱에 AI 기능 추가	REST API 연동	Ollama API Python 연동
코드 작성 보조	VSCode 확장 프로그램	VSCode Ollama 무료 코딩 어시스턴트
반복 작업 자동화	n8n · LangFlow 연결	Ollama n8n 자동화 연동
문서 기반 검색	RAG + 벡터 DB 구축	Ollama RAG 로컬 지식베이스

처음에는 “로컬에서 돌아가는 AI” 정도로만 생각했던 Ollama가, 막상 파고드니 연결할 수 있는 곳이 정말 많습니다. 너무 완벽한 세팅을 고민하기보다 일단 API 연동부터 가볍게 시작해서, 나에게 맞는 Ollama 활용법을 하나씩 확장해 가는 방식을 추천합니다.