Kubernates 기반의 AI 표준 플랫폼
머신러닝을 위한 GPU 인프라를 가장 효율적으로, 가장 쉽게 운영할 수 있게 만들어주는 Kubernetes 기반 솔루션
Overview

잡스케줄러와 자원최적화 기술로 GPU 서버 활용률 극대화

동종 솔루션 중 유일한 학습시간 예측 기능으로 편의성 향상

실시간 모니터링 및 리포트로 인프라 관리효율 향상

주요기능
Astrago의 주요 기능은 ① ML엔지니어를 위한 머신러닝 지원 시스템과,
② 관리자를 위한 인프라 관리 및 오케스트레이션 2가지로 구분됩니다.
Astrago 주요 기능
1 머신러닝 지원 시스템
사용자의 수준에 맞춰 Model Hub, Built-in Image, Custom 3가지 방식으로 학습을 지원합니다. 또한 업계 유일의 학습시간예측으로 연구자 및 프로젝트의 시간 운용에 기여합니다.
모델 허브

SOTA 모델을 GUI환경에서 파라미터 조정만으로 학습.

학생/초급자의 교육목적에 적합

빌트인 이미지

GPU별 최적화된 프레임워크 라이브러리를 탑재한

이미지를 활용하여 개발환경 구성 시간 절감

커스텀 이미지

사용자가 원하는 프레임워크와 라이브러리가

구성된 이미지를 업로드하여 사용 가능

학습시간 예측

모델 업로드 시 예상 완료 시간을 제공하고,

학습 중에는 Bar 형태 UI로 진행 경과 제공

2 인프라 오케스트레이션 및 관리
관리자는 잡스케쥴러와 리소스 최적화를 통해 인프라 전체의 효율성을 높이고, 모니터링과 리포트로 이를 점검해볼 수 있습니다.
잡 스케줄러

작업에 필요한 최적의 GPU 자원을

자동으로 배치

리소스 최적화

리소스를 제대로 활용하지 못하는 워크로드를

검증하고 회수하여 리소스 낭비 예방

모니터링

GPU, CPU 메모리 등 리소스 사용 현황을

클러스터/노드/워크스페이스별로 제공

리포트

분석된 통계와 데이터를 바탕으로 현재 상황을

진단하여 인사이트 보고서 제공

특장점
1 목적에 맞는 인프라 운용을 지원하는 잡스케줄러
사용자가 설정한 목적에 따라, 자동으로 클러스터 내의 GPU자원 분배

- 효율성, 분산학습 등 사용자가 설정한 목적에 맞는 3가지 잡스케줄러 지원

- 효율성 중심 잡스케줄러 : 가용 자원이 적은 node부터 작업을 배정하여 전체 GPU 활용률 향상

- 분산학습 잡스케줄러 : 분산학습의 프로세스를 동일 node나 네트워크 거리가 가까운 gpu에 배정하여 속도 향상

- 보다 효과적인 스케줄러 운영을 위해 MIG 등 다양한 GPU 분할기술 지원

2 실시간 모니터링 및 리포트로 인프라 관리 효율 향상
실시간 모니터링 및 리포트로 인프라 관리 효율 향상을 위한 기능 제공
< 모니터링 메인페이지 -> 클러스터/노드/워크스페이스로 이동 >
< GPU 최다사용 프로젝트 및 사용자 등이 담긴 인사이트 리포트 >

- CPU, GPU, 디스크와 메모리등의 다양한 리소스 사용 현황을 Node / 클러스터 / 워크스페이스 별로 제공

- 장애발생시 알람과 함께 원인(서버/노드/PIP) 에 대한 정보 제공

- 사용량이 적은 리소스 등 시스템을 최적화 할 수 있는 지표를 리포트로 제공

차별점
1 동종 솔루션 중 유일하게 학습 완료시간에 대한 예측값을 제공하여 사용자 편의성 향상
학습 완료시간에 대한 예측값 제공
< 최초 잡 생성시 제공되는 예상 학습시간 >
< 학습 진행시 바(bar)형태의 UI 노출 후 경과 표시 >

- 최초 모델 업로드시 예상 완료시간을 제공하고, 진행시 경과에 따라 Bar 형태의 UI로 표기

- 사용자와 관리자는 예측된 시간을 토대로 보다 효율적인 시간 운용 계획 수립

2 Model hub 부터 custom까지 사용자의 수준과 목적에 맞는 3가지 방식의 학습 방식 제공
사용자의 수준과 목적에 맞는 3가지 방식의 학습 방식 제공
< 모델 허브(GUI 기반) >
< 빌트인 이미지(컨테이너 이미지) >
< 커스텀 이미지(컨테이너 이미지) >

- 모델 허브 : SOTA 모델의 소스코드 및 프레임워크가 모두 탑재되어 GUI 상 파라미터 조작만으로 모델 학습 가능

- 빌트인 이미지 : GPU별 최적의 프레임워크 라이브러리를 탑재하여 별도의 환경 구성 시간 없이 모델 학습 가능

- 커스텀 : 사용자가 원하는 프레임워크와 라이브러리, 소스코드를 업로드하여 사용 가능

- 빌트인 이미지의 경우 별도 서비스를 통해 특정 모델 학습 환경을 위한 최적의 환경 컨설팅 지원

상품, 기술 지원 문의
궁금하신 사항이 있으시면 문의해 주세요.
담당자가 안내해드리겠습니다.
제출하기