아크릴, GPU 클러스터 최적화 기술 성능 입증…최대 25배 향상
스크롤 이동 상태바
아크릴, GPU 클러스터 최적화 기술 성능 입증…최대 25배 향상
이 기사를 공유합니다
글로벌 CSP 환경서 실증…AI 데이터센터 운영 효율 개선 기대

아크릴이 GPU 클러스터 최적화 소프트웨어 ‘조나단 지피유베이스(JONATHAN GPUBASE)’를 통해 실제 운영 환경에서 최대 25배 성능 향상을 입증했다. 미국 클라우드 서비스 제공사 환경에서 수백 대 규모 GPU 클러스터를 대상으로 진행된 사전 평가에서 성능 안정성과 운용 효율을 동시에 확인했다.

이번 평가는 글로벌 클라우드 서비스 제공사(CSP) 인프라에서 ‘K-스케일(K-Scale, 대규모 확장 환경)’ 조건으로 수행됐다. 다양한 학습과 추론 워크로드가 동시에 작동하는 실제 AI 데이터센터 환경에서 총 7개 항목에 대한 정량 검증이 이뤄졌다.

평가 결과, GPUBASE를 적용하지 않은 환경에서는 네트워크 부하 증가에 따라 성능이 급격히 저하돼 최대 95%까지 감소한 반면, 적용 환경에서는 모든 부하 구간에서 무부하 상태와 동일한 성능을 유지했다. 이를 통해 기준 대비 최대 25배 성능 개선 효과가 확인됐다.

해당 성능 향상은 실제 모델 학습 환경에서도 재현됐다. 한국어 기반 대규모 언어모델(11B 파라미터)과 의료 AI 모델(27B 파라미터)을 활용한 실험에서 부하 수준에 따라 2배에서 최대 25배까지 학습 속도 개선이 나타났다.

학습과 추론이 동시에 수행되는 혼합 환경에서도 성능 차이는 뚜렷했다. GPUBASE 적용 시 학습 속도는 기준 대비 6배 향상됐으며, 추론 응답 시간 역시 SLA(Service Level Agreement, 서비스 수준 계약) 기준을 충족했다. 반면 기존 환경은 동일 조건을 만족하지 못한 것으로 나타났다.

장애 대응 측면에서도 GPU 이상 상황에 대한 자동 감지와 복구 기능이 전 시나리오에서 정상 작동했으며, 플랫폼 핵심 기능 8종에 대한 정확성 검증을 모두 통과했다.

아크릴은 이번 결과를 기반으로 대규모 확장 검증을 이어갈 계획이다. 복수 CSP 환경에서 누적 1,000개 이상의 GPU를 검증하는 수평 확장(Horizontal K-Scale)과 단일 클러스터에서 1,000개 이상 GPU를 검증하는 수직 확장(Vertical K-Scale)을 병행 추진한다. 1단계는 2026년 상반기, 2단계는 연내 진행될 예정이다.

조나단 지피유베이스는 다중경로 전송, 트래픽 차등화(PeRF), GPU 동적 할당, 멀티벤더 GPU 통합 관리 등 기술을 기반으로 한 클러스터 최적화 소프트웨어다. 인피니밴드(InfiniBand) 중심 구조에서 이더넷·로씨이브이2(Ethernet/RoCEv2, 원격 직접 메모리 접근 기술) 기반으로 전환되는 AI 데이터센터 환경에서 성능 저하 문제를 보완하는 솔루션으로 평가된다.

염익준 CTO는 “실제 데이터센터는 다양한 트래픽이 동시에 발생하는 환경”이라며 “이번 평가를 통해 실환경에서도 안정적인 성능을 유지할 수 있음을 확인했다”고 밝혔다.

이 기사를 공유합니다
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
메인페이지가 로드 됐습니다.
가장많이본 기사
칼럼/수첩/발언대/인터뷰
방송뉴스 포토뉴스
오피니언  
연재코너  
지역뉴스
공지사항
손상윤의 나사랑과 정의를···
뉴스타운TV 기사보기