최근 이것저것 서비스를 만들다 보니 자연스럽게 AI를 붙일 일이 많아졌다.
처음에는 Claude, GPT의 API를 사용했는데, 막상 개인 프로젝트에 붙여서 이것저것 테스트하다 보면 생각보다 비용이 꽤 나온다.
특히, 간단한 기능임에도 악덕 앤트로픽과 OpenAI가 API 비용을 과하게 잡는 현장을 목격하면 마음이 아프다. ^_^
그래서 이것저것 찾아보다가 꽤 괜찮은 무료 LLM들을 발견했고
보물창고에 숨겨두었던 무료로 사용 가능한 LLM 방법 3가지를 정리해보려고 한다.
🚨 결론부터.. 🚨
그냥 NVIDIA Build를 사용하자.
갓 젠승 황님은 GPU를 팔아야 먹고사시는 분인데
GPU가 없는 우리에게도 단비를 내려주셨다.
(* 진짜 왜 무료인지 아직도 잘 모르겠다.)
물론 상황에 따라 Google AI Studio가 더 나을 수도 있고, Ollama가 더 적합한 경우도 있다.
하지만 현재 시점에서 무료 API를 가장 편하게 사용하고 싶다면 NVIDIA Build가 가장 강력한 선택지라고 생각한다.
왜 무료 LLM이 필요할까?
요즘은 AI를 활용한 서비스를 만드는 진입장벽이 정말 많이 낮아졌다.
- RAG 챗봇 만들기
- n8n 기반 업무 자동화
- 개인 비서 구축
- Slack 챗봇 개발
이처럼 AI 기능을 서비스에 붙이려면 결국 LLM API를 호출해야 하는데, 비용 때문에 망설여진다.
개인 프로젝트나 사내 PoC 단계에서는 물론이고,
정식 서비스로 출시하더라도 초기 사용자 수가 많지 않은 경우에는 매달 발생하는 API 비용이 부담될 수 있다.
그래서 자연스럽게 무료 또는 무료에 가까운 비용으로 사용할 수 있는 LLM 서비스를 찾게 된다.
1. NVIDIA Build
먼저 이번 글의 주인공이다.
솔직히 말하면 이번 글을 쓰게 된 이유이기도 하다.
Try NVIDIA NIM APIs
Experience the leading models to build enterprise generative AI apps now.
build.nvidia.com
NVIDIA Build는 복잡한 서버 설정이나 인프라 구축 없이도
개발자가와 엔지니어가 AI 애플리케이션을 쉽게 제작할 수 있도록 돕는 플랫폼이라고 이해하면 된다.
현재 기준으로도 상당히 많은 모델들이 제공되고 있다.
- Llama 계열
- Qwen 계열
- DeepSeek 계열
- Mistral 계열
- Nemotron 계열
그리고 여기서 실제 API를 호출할 때 사용하는 것이 NVIDIA NIM API이다.
덕분에 별도로 모델을 설치하거나 GPU 준비 없이 API Key만 발급받으면 바로 사용할 수 있다.
😎 좋았던 점
- 무료 API 제공
- OpenAI 호환
- 최신 오픈소스 모델 지원
- 속도 상당히 빠름 (무료버전 치고..!)
- GPU 없어도 됨
🤔 아쉬웠던 점
- Preview 모델 일부 존재
- 상업 서비스 운영용으로는 정책 확인 필요
- 모델별 Rate Limit 존재
근데 솔직히 개인 프로젝트 기준으로는 단점이 없다.
RAG 챗봇 정도는 거뜬하게 돌릴 수 있다.
2. Google AI Studio
두 번째는 Google AI Studio이다.
Google AI Studio
The fastest path from prompt to production with Gemini
aistudio.google.com
예전부터 Gemini 무료 API 때문에 유명했다.
실제로 나도 한동안 Gemini API를 많이 사용했다.
다만 최근에는 조금 아쉬운 부분도 있었다.
- 사용량 제한 체감
- 모델 정책 변경
- 무료 쿼터 변동
물론 여전히 좋은 서비스다.
다만 사용량 제한은 생각보다 빡빡한 편이었다.

실제로 사용하다 보면 RPM(Requests Per Minute), TPM(Tokens Per Minute), RPD(Requests Per Day) 제한에 자주 걸리게 된다.
특히 개인적으로는 RPD 제한이 가장 아쉬웠는데,
하루에 20번 호출 제한이면 사실상 테스트도 한 시간에 한 번씩 해야 하는 수준이다.
물론 Gemini 자체의 성능은 상당히 좋다.
Tool Calling, 추론 능력, 한국어 품질 등을 종합적으로 보면 무료로 풀린 대부분의 모델들보다 확실히 한 수 위라는 느낌을 받았다.
그래서 무료 사용자 입장에서는 조금 답답할 수 있지만, 소액 과금 정도는 괜찮다고 생각한다면 여전히 추천할 만한 선택지라고 생각한다.
3. Ollama
개발자라면 한 번쯤 들어봤을 것이다.
Ollama
Ollama is the easiest way to automate your work using open models, while keeping your data safe.
ollama.com
Ollama는 API 서비스가 아니라 로컬 LLM 실행 도구에 가깝다.
즉, 내 PC에서 직접 모델을 돌리는 방식이다.
ollama run qwen3
설치는 매우 쉽지만 문제는 GPU다.
좋은 성능을 내려면 결국 GPU가 필요하다.
그리고 모델이 커질수록 메모리도 많이 먹는다.
그래서 생각보다 진입장벽이 있다.
😎 좋았던 점
- 완전 무료
- 인터넷 없이 가능
- 개인정보 유출 걱정 없음
🤔 아쉬웠던 점
- GPU 필요
- 고성능 모델은 무거움
- 설정이 다소 번거로움
- 저장공간 많이 차지 (모델 로컬 다운로드)
참고로 회사 노트북으로 돌려보려다가 팬 돌아가는 소리에 포기한 적도 있다.
※ 참고) 올라마 사용방법
https://mjoo1106.tistory.com/51
Spring AI를 사용해보자.
오늘은 사내프로젝트에서 사용했던 Spring AI에 대해 소개하고 간단한 실습을 해보려고 한다!사실 공식문서가 엄청나게 잘되어 있어서 개념 설명보다는 실습 위주로 풀어나가겠다~~ Spring AI ? AI Eng
mjoo1106.tistory.com
그래서 뭘 써야 할까?
| 상황 | 추천 |
| 사용량 스트레스 안 받고 싶음 | NVIDIA Build |
| 조금 투자해도 품질이 중요함 | Google AI Studio |
| 보안이 가장 중요함 | Ollama |
정리하면 현재 시점 기준으로는 NVIDIA Build가 가장 밸런스가 좋다고 생각한다.
무료 API도 제공하고, 최신 오픈소스 모델도 사용할 수 있고, 속도도 빠르다.
NVIDIA Build 사용방법
그럼 이제 실제로 NVIDIA Build를 사용해 보자.
1️⃣ NVIDIA Build 회원가입
https://build.nvidia.com/?modal=signin
Try NVIDIA NIM APIs
Experience the leading models to build enterprise generative AI apps now.
build.nvidia.com


가입 과정에서 특별히 어려운 부분은 없다.
카드 등록도 필요하지 않고 이메일과 휴대폰 인증만 받으면 된다.
2️⃣ 사용할 모델 선택하기
로그인 후에는 사용할 모델을 선택하면 된다.
검색창에서 원하는 모델을 검색하거나, 모델 목록에서 직접 선택할 수 있다.
필자는 주로 Qwen 계열과 Llama 계열을 테스트했다.

처음에는 어떤 모델을 써야 할지 조금 헷갈릴 수 있는데,
개인적으로 여러 모델을 사용해 본 경험을 기준으로 아래 정도를 참고하면 좋을 것 같다.
- 한국어 응답이 중요하다면 Qwen 계열
- 밸런스 좋은 모델을 찾는다면 Llama 계열
- 추론이나 코드 생성이 중요하다면 DeepSeek 계열
- NVIDIA 모델을 써보고 싶다면 Nemotron 계열
3️⃣ API Key 발급받기
API Key를 발급받는 방식은 2가지인데,
첫 번째로는 마이프로필에서 발급받는 방식이다.
우측 상단의 프로필 클릭 후, API Keys에 진입하면 아래와 같은 화면이 노출된다.

이후, Generate API Key를 클릭하여 Key 발급을 진행한다.


두 번째로는 원하는 모델에서 바로 API Key를 발급받는 방식이다.

Generate API Key를 클릭하면 자동으로 키가 발급되고, $NVIDIA_API_KEY 가 실제 API Key로 변경된다.
다만, 발급된 키의 유효기간은 6개월이므로 유효기간 없이 사용하고 싶은 분들은 마이페이지에서 생성하면 된다.
4️⃣ Postman으로 호출해 보기
이제 실제로 API를 호출해 보자.
원하는 모델에 진입하면 사용법이 상세하게 나타나있으니, 해당 정보를 기반으로 진행해 보면 된다.
Postman에서 새로운 요청을 만들고 아래처럼 설정한다.
Headers는 아래처럼 넣어준다.
| Key | Value |
| Authorization | Bearer $NVIDIA_API_KEY |
| Content-Type | application/json |
Body는 raw JSON으로 설정하고 아래처럼 입력한다.
(* 모델명은 본인이 선택한 모델에 맞게 변경하면 된다.)
{
"model": "meta/llama-3.3-70b-instruct",
"messages": [
{
"role": "user",
"content": "안녕. 너는 누구야?"
}
],
"temperature": 0.2,
"max_tokens": 512
}

정상 응답을 확인하고 각자의 프로젝트에 적용하기만 하면 끝이다.
사실, 설명이 워낙 친절해서 블로그가 아니라 공식 홈페이지만 보고 따라 해도 바로 사용 가능하다.
NVIDIA Build 사용 후기

사실 블로그에 챗봇을 만들고 싶긴 했는데, LLM 비용 때문에 고민하고 있었다.
챗봇 특성상 질문이 들어올 때마다 API를 호출해야 하는데, 개인 프로젝트에서 매달 비용을 내면서 운영하기에는 조금 부담스러웠다.
그러던 중 NVIDIA Build를 알게 되었고 현재는 실제로 블로그 챗봇에 적용해서 사용하고 있다.
생각보다 만족스러웠던 부분은 한국어 성능이었다.
어차피 내 챗봇은 블로그 글을 Vector DB에 저장해 두고 관련 내용을 검색한 뒤 답변하는 구조라,
GPT나 Claude 수준의 고차원적인 추론 능력이 반드시 필요한 것은 아니었다.
중요한 것은 검색된 내용을 자연스럽게 정리해서 답변해 주는 능력이었는데,
NVIDIA Build에서 제공하는 모델들로도 충분히 원하는 수준의 결과를 얻을 수 있었다.
오늘의 결론
무료 LLM을 활용하기 위한 서비스가 생각보다 많았다.
Google AI Studio도 있고, Ollama도 있고, 여러 오픈소스 모델도 존재한다.
하지만 지금 누군가가 딱 하나만 추천해 달라고 하면 NVIDIA Build를 소개할 것 같다.
필자처럼 LLM을 서비스에 녹이고 싶었는데, 비용 때문에 망설이고 있던 분들이 있다면
한 번쯤 사용해 보는 것을 추천한다.

