HCX 기반 산업 특화 LLM 구축 [대형 에너지 발전사]

Issues

공공 에너지 산업은 규정, 절차서, 기술문서, 도면 등 고난도 전문 문서로 구성되어 있으며, 기존 범용 LLM은 이러한 복잡한 문맥을 이해하거나 산업 맞춤형 답변 및 문서 생성을 수행하는 데 한계가 있음
많은 기업/기관이 특화 LLM 도입을 추진하고 있으나, 튜닝 전략 부적합으로 인한 시행착오가 빈번히 발생함
- CPT 기반 전면 학습의 고비용 문제
- PEFT만 적용할 경우 산업 전문지식이 피상적으로 반영되는 문제
- 모델 파라미터 설정 오류 시 일반 지능 성능 하락 위험
- 내부 규정·도면·절차 등 복잡한 문맥을 반영하기 어려운 문제 등
특히, 국가 기반시설을 운영하는 기관으로서 민감한 내부 데이터가 외부로 유출되어서는 절대 안되는 고도의 보안 요구사항을 갖고 있음
이에 고객사는 On-Premise 환경에서 공공 에너지 산업에 특화된 지식을 갖춘 LLM을 구축함으로써 발전 운영 효율화 및 안전성 강화를 목표로 함

국내 대표 LLM인 네이버 하이퍼클로바X(HCX) 모델을 기반으로 공공 에너지 분야의 방대한 전문 데이터를 학습시킨 특화 LLM 구축함
전문 데이터 학습을 위해 CPT(Continual Pre-Training), SFT(Supervised Fine-Tuning) 및 PEFT(Parameter Efficient Fine-Tuning)을 수행함

[ CPT/SFT와 PEFT 비교]

도메인 특화 LLM Fine-tuning을 위한 성공 전략

FP/SFT + PEFT의 목적 기반 이원화 학습 전략 구성
- FP/SFT(모델 전체 학습): 발전 산업의 규정·절차·전문 용어 등 도메인 지식을 모델 내부에 체화
- PEFT(LoRA 기반 부분 학습): 보도자료, 출장보고서 등 각종 문서 자동 생성과 같은 실제 Task 수행 능력 강화
- 지식(Understanding)과 스킬(Formatting)을 분리 학습하여 최적의 전문성 확보
대규모 공공 산업 데이터 기반 도메인 모델 구축
- 수만 건의 발전 관련 데이터를 정제·라벨링하여 산업 특화 학습용 데이터셋 구성
- 산업 문맥 표현(내부 규정, 정비 매뉴얼 등)을 유지하도록 모델 최적화
LLM 모델링 전문성 확보
- 네이버 하이퍼클로바X 학습 환경에 대한 최적 파라미터 세팅 확보
- 공공·규제·에너지 산업 전반으로 확장 가능한 표준 모델 개발 프로세스 확립