
아크릴이 GPU 클러스터 최적화 소프트웨어 ‘조나단 지피유베이스(JONATHAN GPUBASE)’를 통해 실제 운영 환경에서 최대 25배 성능 향상을 입증했다. 미국 클라우드 서비스 제공사 환경에서 수백 대 규모 GPU 클러스터를 대상으로 진행된 사전 평가에서 성능 안정성과 운용 효율을 동시에 확인했다.
이번 평가는 글로벌 클라우드 서비스 제공사(CSP) 인프라에서 ‘K-스케일(K-Scale, 대규모 확장 환경)’ 조건으로 수행됐다. 다양한 학습과 추론 워크로드가 동시에 작동하는 실제 AI 데이터센터 환경에서 총 7개 항목에 대한 정량 검증이 이뤄졌다.
평가 결과, GPUBASE를 적용하지 않은 환경에서는 네트워크 부하 증가에 따라 성능이 급격히 저하돼 최대 95%까지 감소한 반면, 적용 환경에서는 모든 부하 구간에서 무부하 상태와 동일한 성능을 유지했다. 이를 통해 기준 대비 최대 25배 성능 개선 효과가 확인됐다.
해당 성능 향상은 실제 모델 학습 환경에서도 재현됐다. 한국어 기반 대규모 언어모델(11B 파라미터)과 의료 AI 모델(27B 파라미터)을 활용한 실험에서 부하 수준에 따라 2배에서 최대 25배까지 학습 속도 개선이 나타났다.
학습과 추론이 동시에 수행되는 혼합 환경에서도 성능 차이는 뚜렷했다. GPUBASE 적용 시 학습 속도는 기준 대비 6배 향상됐으며, 추론 응답 시간 역시 SLA(Service Level Agreement, 서비스 수준 계약) 기준을 충족했다. 반면 기존 환경은 동일 조건을 만족하지 못한 것으로 나타났다.
장애 대응 측면에서도 GPU 이상 상황에 대한 자동 감지와 복구 기능이 전 시나리오에서 정상 작동했으며, 플랫폼 핵심 기능 8종에 대한 정확성 검증을 모두 통과했다.
아크릴은 이번 결과를 기반으로 대규모 확장 검증을 이어갈 계획이다. 복수 CSP 환경에서 누적 1,000개 이상의 GPU를 검증하는 수평 확장(Horizontal K-Scale)과 단일 클러스터에서 1,000개 이상 GPU를 검증하는 수직 확장(Vertical K-Scale)을 병행 추진한다. 1단계는 2026년 상반기, 2단계는 연내 진행될 예정이다.
조나단 지피유베이스는 다중경로 전송, 트래픽 차등화(PeRF), GPU 동적 할당, 멀티벤더 GPU 통합 관리 등 기술을 기반으로 한 클러스터 최적화 소프트웨어다. 인피니밴드(InfiniBand) 중심 구조에서 이더넷·로씨이브이2(Ethernet/RoCEv2, 원격 직접 메모리 접근 기술) 기반으로 전환되는 AI 데이터센터 환경에서 성능 저하 문제를 보완하는 솔루션으로 평가된다.
염익준 CTO는 “실제 데이터센터는 다양한 트래픽이 동시에 발생하는 환경”이라며 “이번 평가를 통해 실환경에서도 안정적인 성능을 유지할 수 있음을 확인했다”고 밝혔다.
뉴스타운
뉴스타운TV 구독 및 시청료 후원하기
뉴스타운TV






