Kubernates 기반의 AI 표준 플랫폼
단일 GPU 서버에서 대규모 GPU 클러스터까지 Kubernetes 및 Slurm 기반의 최적화된 AI 표준 환경 제공.
Overview

단일 GPU 서버에서 대규모 GPU 클러스터까지 Kubernetes와 Slurm 기반의 최적화된 AI 표준 환경을 제공.

데이터셋, 소스코드, 이미지 등 모델 개발에 필요한 여러 자원에 대한 통합 관리 환경 제공.

클러스터 모니터링, 리소스 알람, MIG 설정 등 GPU 클러스터 관리자를 위한 최상의 관리 기능 제공.

제품라인업
GPU 사용목적과 운영규모에 따라 파운데이션 모델, 클라우드, 어플리케이션 3개의 버전으로 세분화 하여 고객별 맞춤 제공.
GPU 어플라이언스 제품라인업
※ GPU & 서버(Node)당 라이선스 형태로 판매
주요기능
1 사용자 주요기능
Easy Deep-Learning Building

별도의 환경 구축이 필요없이, 다양한 딥러닝 프레임워크와

인터페이스를 이용하여 편리한 딥러닝 개발이 가능

GPU Scheduling

작업 스케줄링을 통한 효율적인 GPU 자원 활용 및 타임테이블,

캘린더를 통한 GPU 작업 일정을 효율적으로 관리

Horovod Distributed Training

대규모 데이터셋 및 모델 학습 시간을

단축 시킬 수 있는 분산 학습을 지원

Dataset, SourceCode Management

데이터셋, 소스코드 등 개발에 필요한 자원을 관리할 수 있게 제공하고,

딥러닝 프레임워크와 연결하여 사용 가능

2 관리자 주요기능
GPU Cluster Monitoring

관리자가 GPU 클러스터 서버의 현재 상태와 GPU, CPU, Memory 등

여러 리소스들을 모니터링 및 알람 기능 제공

Reporting Tool

분석된 통계와 데이터를 바탕으로 현재의 상황을 진단하여

인사이트 보고서 제공

GPU Resource Quota

그룹별 GPU 할당량 설정 기능을 통해

GPU 사용량을 균등하게 조정

Multi Instance GPU

Multi Instance GPU 기능을 통해

NVIDIA A100 GPU 1개를 7개 처럼 사용 가능

제품상세
1 Uyuni Foundation 제품 특화 기능 Slurm Workload
Slurm과 연동하여 HPC 환경의 대규모 데이터 처리 및 모델 학습 작업을 효율적으로 관리

- 웹 인터페이스를 사용하여 Slurm 명령어를 통해 대규모 데이터 처리 및 모델 학습 작업을 처리할 수 있습니다.

- 컨테이너 이미지 및 소스코드를 Slurm과 통합 관리 및 연동하여 사용할 수 있습니다.

- Slurm의 강력한 스케줄링(back-fill), Priority, Requeue 등 다양한 기능들을 Uyuni를 통해 매우 쉽게 활용이 가능합니다.

- 강력한 resource quota 및 job 요청 제한 기능을 제공합니다.

2 모든 딥러닝 라이브러리 및 프레임워크 지원
AI 개발을 위한 모든 딥러닝 라이브러리 및 프레임워크를 지원

- 여러 개발자에게 독립적인 개발 환경을 제공합니다.

- 별도의 환경 구축이 필요없이 Pytorch, Tensorflow 등 AI 개발을 위한 라이브러리 및 프레임워크를 제공합니다.

- 개발에 필요한 다양한 웹 IDE(VSCode, Jupyter Notebook, Rstudio)를 제공하여 실시간으로 개발할 수 있도록 제공합니다.

3 강력한 GPU 클러스터 모니터링
관리자를 위한 강력한 GPU 모니터링 툴 제공
< Cluster 모니터링 >
<리소스 알람 설정>

- GPU 클러스터에 대한 강력한 모니터링 기능을 제공합니다.

- GPU 클러스터 모니터링 위한 다양한 지표를 제공하고, 사용자 별로 모니터링 화면 구성이 가능합니다.

- GPU, CPU, Memory 등 리소스를 모니터링하여 지정한 임계 값을 초과할 경우 이메일 혹은 Slack으로 알림 전송 가능합니다.

4 리포팅 툴 기능 제공
AI개발에 따른 비용 절감과 시스템 최적화 인사이트 보고서 제공

- AI 개발에 따른 최대의 비용 절감과 시스템 최적화를 위한 인사이트 보고서를 제공합니다.

- 가장 사용이 적은 리소스 등 시스템을 최적화할 수 있도록 여러 지표들을 제공합니다.

- 시스템 내에서 낭비되는 작업과 리소스를 찾아 시스템 사용량을 효과적으로 줄일 수 있습니다.

상품, 기술 지원 문의
궁금하신 사항이 있으시면 문의해 주세요.
담당자가 안내해드리겠습니다.
제출하기