Issues
- 공공 에너지 산업은 규정, 절차서, 기술문서, 도면 등 고난도 전문 문서로 구성되어 있으며, 기존 범용 LLM은 이러한 복잡한 문맥을 이해하거나 산업 맞춤형 답변 및 문서 생성을 수행하는 데 한계가 있음
- 많은 기업/기관이 특화 LLM 도입을 추진하고 있으나, 튜닝 전략 부적합으로 인한 시행착오가 빈번히 발생함
- CPT 기반 전면 학습의 고비용 문제
- PEFT만 적용할 경우 산업 전문지식이 피상적으로 반영되는 문제
- 모델 파라미터 설정 오류 시 일반 지능 성능 하락 위험
- 내부 규정·도면·절차 등 복잡한 문맥을 반영하기 어려운 문제 등
- 특히, 국가 기반시설을 운영하는 기관으로서 민감한 내부 데이터가 외부로 유출되어서는 절대 안되는 고도의 보안 요구사항을 갖고 있음
- 이에 고객사는 On-Premise 환경에서 공공 에너지 산업에 특화된 지식을 갖춘 LLM을 구축함으로써 발전 운영 효율화 및 안전성 강화를 목표로 함
Approach
- 국내 대표 LLM인 네이버 하이퍼클로바X(HCX) 모델을 기반으로 공공 에너지 분야의 방대한 전문 데이터를 학습시킨 특화 LLM 구축함
- 전문 데이터 학습을 위해 CPT(Continual Pre-Training), SFT(Supervised Fine-Tuning) 및 PEFT(Parameter Efficient Fine-Tuning)을 수행함
[ CPT/SFT와 PEFT 비교]
| 구분 | CPT / SFT | PEFT (LoRA) |
| 비유 | 뇌 구조를 바꾸는 학습(지능) | 손기술을 익히는 학습(스킬) |
| 목적 | 산업 전문 지식·규정·용어 체득 | 문서 양식·말투·요약 등 Task 전문화 |
| 리소스 | 대규모 GPU, 장기 학습 | 적은 자원, 빠른 적용 |
| 결과 | 모호한 질문도 정확히 이해 | “○○양식으로 작성” 명령 수행 능력 |
도메인 특화 LLM Fine-tuning을 위한 성공 전략
- FP/SFT + PEFT의 목적 기반 이원화 학습 전략 구성
- FP/SFT(모델 전체 학습): 발전 산업의 규정·절차·전문 용어 등 도메인 지식을 모델 내부에 체화
- PEFT(LoRA 기반 부분 학습): 보도자료, 출장보고서 등 각종 문서 자동 생성과 같은 실제 Task 수행 능력 강화
- 지식(Understanding)과 스킬(Formatting)을 분리 학습하여 최적의 전문성 확보
- 대규모 공공 산업 데이터 기반 도메인 모델 구축
- 수만 건의 발전 관련 데이터를 정제·라벨링하여 산업 특화 학습용 데이터셋 구성
- 산업 문맥 표현(내부 규정, 정비 매뉴얼 등)을 유지하도록 모델 최적화
- LLM 모델링 전문성 확보
- 네이버 하이퍼클로바X 학습 환경에 대한 최적 파라미터 세팅 확보
- 공공·규제·에너지 산업 전반으로 확장 가능한 표준 모델 개발 프로세스 확립
Results
- 고객사 산업 데이터를 직접 학습한 특화 LLM을 구축하여 전문 용어·절차·규정 등 복잡한 문맥을 정확히 이해하고 고도화된 응답을 제공함
- 각종 문서 생성 기능을 확보함으로써 보고서 초안 작성 시간이 크게 단축되고, 문서 품질의 일관성과 내부 프로세스 효율성이 동시에 향상됨
- 파인튜닝 과정에서 발생한 기술적 문제를 독자적으로 분석·해결하며 대형 모델 구축에 대한 전문 모델링 역량을 입증함
Demo Examples





