단일 GPU 서버에서 대규모 GPU 클러스터까지 Kubernetes와 Slurm 기반의 최적화된 AI 표준 환경을 제공.
데이터셋, 소스코드, 이미지 등 모델 개발에 필요한 여러 자원에 대한 통합 관리 환경 제공.
클러스터 모니터링, 리소스 알람, MIG 설정 등 GPU 클러스터 관리자를 위한 최상의 관리 기능 제공.
별도의 환경 구축이 필요없이, 다양한 딥러닝 프레임워크와
인터페이스를 이용하여 편리한 딥러닝 개발이 가능
작업 스케줄링을 통한 효율적인 GPU 자원 활용 및 타임테이블,
캘린더를 통한 GPU 작업 일정을 효율적으로 관리
대규모 데이터셋 및 모델 학습 시간을
단축 시킬 수 있는 분산 학습을 지원
데이터셋, 소스코드 등 개발에 필요한 자원을 관리할 수 있게 제공하고,
딥러닝 프레임워크와 연결하여 사용 가능
관리자가 GPU 클러스터 서버의 현재 상태와 GPU, CPU, Memory 등
여러 리소스들을 모니터링 및 알람 기능 제공
분석된 통계와 데이터를 바탕으로 현재의 상황을 진단하여
인사이트 보고서 제공
그룹별 GPU 할당량 설정 기능을 통해
GPU 사용량을 균등하게 조정
Multi Instance GPU 기능을 통해
NVIDIA A100 GPU 1개를 7개 처럼 사용 가능
- 웹 인터페이스를 사용하여 Slurm 명령어를 통해 대규모 데이터 처리 및 모델 학습 작업을 처리할 수 있습니다.
- 컨테이너 이미지 및 소스코드를 Slurm과 통합 관리 및 연동하여 사용할 수 있습니다.
- Slurm의 강력한 스케줄링(back-fill), Priority, Requeue 등 다양한 기능들을 Uyuni를 통해 매우 쉽게 활용이 가능합니다.
- 강력한 resource quota 및 job 요청 제한 기능을 제공합니다.
- 여러 개발자에게 독립적인 개발 환경을 제공합니다.
- 별도의 환경 구축이 필요없이 Pytorch, Tensorflow 등 AI 개발을 위한 라이브러리 및 프레임워크를 제공합니다.
- 개발에 필요한 다양한 웹 IDE(VSCode, Jupyter Notebook, Rstudio)를 제공하여 실시간으로 개발할 수 있도록 제공합니다.
- GPU 클러스터에 대한 강력한 모니터링 기능을 제공합니다.
- GPU 클러스터 모니터링 위한 다양한 지표를 제공하고, 사용자 별로 모니터링 화면 구성이 가능합니다.
- GPU, CPU, Memory 등 리소스를 모니터링하여 지정한 임계 값을 초과할 경우 이메일 혹은 Slack으로 알림 전송 가능합니다.
- AI 개발에 따른 최대의 비용 절감과 시스템 최적화를 위한 인사이트 보고서를 제공합니다.
- 가장 사용이 적은 리소스 등 시스템을 최적화할 수 있도록 여러 지표들을 제공합니다.
- 시스템 내에서 낭비되는 작업과 리소스를 찾아 시스템 사용량을 효과적으로 줄일 수 있습니다.