일본 수의사국가시험 통과한 수의학 특화 LLM 모델, 국내 회사가 개발
춘옥컴퍼니, 수의 특화 생성형 오픈소스 LLM ‘VetJarvis-4B-Instruct’ 공개

수의사 대표가 이끄는 국내 기업이 수의학 특화 LLM 모델을 선보여 관심을 받고 있다.
수의 AI 스타트업 춘옥컴퍼니(대표 허찬)가 최근 수의학 도메인에 특화된 생성형 대형언어모델(LLM) ‘VetJarvis-4B-Instruct’를 오픈소스로 공개했다. 모델 가중치는 허깅페이스(HuggingFace)에 게시됐으며, 수의학 연구·교육 생태계 확장을 목적으로 한 비상업적 라이선스(CHOONOK VetJarvis Model License 1.0-NC) 하에 배포된다.
회사 측은 “본 모델은 의료기기가 아니며, 실제 동물 환자에 대한 진단·처방·치료 등 임상 의사결정 용도의 사용은 허용되지 않는다”고 강조했다. 이어 “본 모델이 수의학 연구자·교육자·전문가의 학술 활동과 기술 평가를 지원하는 도구로 활용되기를 기대한다”고 전했다.
수의 전문가가 만든 모델..임상 현장 지식의 결합
춘옥컴퍼니에 따르면, 기존 수의학 AI 연구는 진단코드 자동 매핑이나 전자건강기록(EHR) 분류와 같은 판별형 태스크를 중심으로 발전해왔다. 반면, VetJarvis-4B-Instruct는 수의학 도메인에 특화된 생성형 LLM으로, 수의학 AI의 연구 범위를 자유로운 텍스트 생성 영역까지 확장했다는 점에서 의미가 있다고 한다.
춘옥컴퍼니는 “이 모델은 수의학 학술 문헌, 가이드라인, 그리고 임상 현장에서 축적된 수의학 전문 지식을 기반으로 구축된 코퍼스를 학습에 활용했다”며 “내과·외과·영상의학·종양학 등 다양한 임상 분야를 아우르는 전문 자료가 반영됐고, 학습에 사용된 자료는 개인정보 및 식별 가능한 요소를 제거하는 비식별화 절차를 거쳤다”고 설명했다.
개발은 임상 수의사이자 AI 개발자인 허찬 대표가 주도했으며, 춘옥컴퍼니 기술팀과 로컬동물병원 및 대학동물병원의 임상수의사 30여 명으로 구성된 전문 자문단이 데이터 설계와 검증에 참여했다.
사전학습(CPT)부터 내재화한 수의학 지식
VetJarvis-4B-Instruct는 단순 파인튜닝에 그치지 않고, 사전학습(Continual Pre-Training, CPT) 단계부터 수의학 지식을 모델 파라미터 깊숙이 내재화하는 방식으로 설계됐다고 한다. 회사 측은 “범용 LLM에 수의학 지식을 겉으로만 입히는 방식으로는 한계가 있다는 판단 하에, 모델이 수의학적 개념과 임상 맥락을 근본적으로 이해할 수 있도록 사전학습을 진행했다”고 밝혔다.
이후 지도 미세조정(SFT) 단계에서는 고년차 수의사 자문단 참여를 통해 수의 임상 및 학술 질의에 최적화된 답변 구조를 설계했다. 특히 근거 없이 답하는 환각(hallucination) 현상을 구조적으로 억제하기 위해 정보가 불확실한 경우에는 “관련 검사가 추가로 필요하며, 최종적인 임상 판단은 수의사에게 있습니다”와 같은 방식으로 답변한다. 전문가 판단의 우위를 지키도록 하기 위함이다.
“일본 수의사 국가시험 벤치마크에서 동급 오픈모델 압도, 클로즈드 모델에 근접”
춘옥컴퍼니는 평가의 투명성과 재현성을 확보하기 위해, 기출문제를 공식 공개하는 일본 수의사국가시험(제73~77회, 2022~2026년)의 소동물 임상 관련 문항(n=132)을 벤치마크로 활용했다.
회사 측이 공개한 자료에 따르면, VetJarvis-4B-Instruct는 표준 모드에서 77.88%, 추론(Think) 모드에서 81.67%의 정확도를 기록하며, 동일 4B 규모의 Qwen3.5-4B(62.58%), Gemma-E4B(56.97%), 그리고 약 2배 규모인 EXAONE-3.5-7.8B(47.58%)를 최대 30%p 이상 상회했다고 한다. 또한, 클로즈드 모델인 GPT-5.4-mini(86.82%) 및 GPT-5.4-mini·Think(93.94%)와는 약 5~12%p 격차를 보였는데, 이는 파라미터 규모 차이를 고려할 때 의미 있는 근접도라는 게 회사 측 설명이다.
춘옥컴퍼니는 “수의학 도메인 특화 학습이 범용 대형 모델 대비 동급 또는 그 이상의 전문 성능을 낼 수 있음을 실증적으로 보여준 결과”라고 강조했다.
전문가 도구로 설계된 4B 온디바이스 모델
춘옥컴퍼니가 VetJarvis-4B-Instruct를 4B(40억 파라미터) 규모로 설계한 것은 전략적 선택이다. 수의학 전문 영역에 최적화된 소형 모델로 개발한 것이다. 춘옥컴퍼니는 “범용 대형 LLM(GPT, Claude 등)과 비교할 때 일반 대화 능력은 낮지만 수의학 임상 맥락에서는 강점을 가진다”며 “수의 전문가의 연구·교육 워크플로우에 통합될 때 가치가 발휘되는 전문가용 도구로 설계했다”고 설명했다.
인터넷 연결 없이 로컬 서버에서 구동 가능한 것도 특징이다. 온디바이스(On-device) 환경을 목표로 최적화되어, 클라우드 인프라 없이도 본 모델을 활용해 연구·개발할 수 있는 기반을 제공한다.
연구·교육 생태계를 위해 무료 공개
VetJarvis-4B-Instruct는 CHOONOK VetJarvis Model License 1.0-NC 하에 공개된다. 수의학 학술 연구, 교육, 기술 평가 목적에 한해 자유롭게 사용할 수 있으며, 수익 창출을 위한 상업적 활용과 실제 동물 환자에 대한 진단·처방·치료 등 임상 의사결정 용도의 사용은 금지된다.
연구·교육 외 용도(산업 응용 등)의 경우에는 춘옥컴퍼니의 사전 서면 승인을 거쳐야 한다. 춘옥컴퍼니는 이에 대해 “AI가 수의사의 전문성을 대체하는 것이 아니라 보조하는 도구여야 한다는 원칙에 따른 것”이라며 “수의사 면허 제도와 임상 책임 구조를 존중하는 범위에서 모델이 활용되도록 하기 위함”이라고 밝혔다.
모델 카드에는 실제로 의료기기가 아님(Not a Medical Device), 임상 사용 금지(Prohibition of Clinical Use), 환각 가능성에 대한 주의 및 수의 전문가의 교차 검증 필수 등 한계와 책임 범위가 명시되어 있다.
“수의사가 직접 만든 모델”
춘옥컴퍼니 허찬 대표는 15년 이상의 임상 경력을 보유한 수의사로, 현장에 대한 이해와 AI 개발 역량을 결합해 이번 모델을 완성했다.
허찬 대표는 “데이터 설계부터 사전학습·미세조정, 평가에 이르기까지 임상수의사가 처음부터 끝까지 참여해 검증한 것이 기존 글로벌 수의 AI 모델들과의 가장 큰 차별점”이라고 말했다.
이어 “VetJarvis는 수의사의 판단을 대체하는 도구가 아니라, 수의 전문가의 연구와 교육을 돕는 조력자로 설계됐다”고 덧붙였다.
VetBench 및 차세대 모델 개발 진행 중
춘옥컴퍼니는 VetJarvis-4B-Instruct 공개에 그치지 않고, 수의학 AI 평가 벤치마크인 VetBench를 준비 중이다.
또한 수의 전문가(연구자·교육자) 중심의 안전하고 책임감 있는 활용을 전제로, 올 하반기 중 보다 큰 규모의 차세대 모델을 추가 공개할 예정이다.