ToDown
제품문의
ToDown
Hamburger Icon
씨이랩과
Vision AI의 연혁
2010~2012
씨이랩 설립
이미지 인식 대회에서 알렉스넷이 우승해
Vision AI 주목
2012~2013
빅데이터 처리 기술 확보
컨볼루션 신경망 등의 모델 성능 발전
2013~2017
데이터 기반 AI 기술 개발 착수
알파고의 승리로 AI 관심 증가
2017~2019
AI 영상 사업화 역량 확보
Vision AI 시장 확대
2019~2020
NVIDIA Partner Network 체결
자율주행 등 기술 활용의 확대
2021~현재
코스닥 상장 및 미국 법인 출범
여러 분야에서 실질적인 응용 가능
Large Vision
Model의 변천사
Texture 부터 Vision Transformer, SAM,
GPT까지 발전한 후 Large Vision Model의
다음 단계는 Computer Vision 입니다.
graph
고정된 환경 인식
- Texture
- Image Pattern
데이터 패턴 학습
- Deep Learning
- Convolutional Neural Networks (CNNs)
- Layer
- Image Classification
- Object detection
- Segmentation
Attention is All You Need
- Transformer Architecture
- Reduced training time
- Effective long-sequence handling
GPT, Transformer Base
- Google, Vision Transformer, VIT - image
sequence
- CLIP
- Effective long-sequence handling
Multi Modal : LVLM
OpenAI (DALL-E, GPT-3, GPT-4)
META, Segment Anything, SAM
Large
Vision-Language
Model, LVLMs
Multi-Modal Learning
이미지와 텍스트를 결합하여 더욱 풍부하고
유용한 정보를 추출할 수 있습니다.
상세하고 정확한 상황 인식
텍스트 설명과 시각적 콘텐츠를 함께 활용하여
상황을 더욱 정확하고 상세하게
인식할 수 있습니다.
창의적 애플리케이션의 개발
아트 생성, 설명 캡션, 대화형 AI 등
새로운 형태의 창의적인 애플리케이션을
개발할 수 있습니다.
GPT-4 (OpenAI)
창의성, 시각적 입력 처리, 긴
문맥 이해가 가능한 언어 모델
gpt4
DALL-E 3 (OpenAI)
텍스트를 이미지로
변환할 수 있는 모델
dalle3
SORA (OpenAI)
텍스트를 동영상으로
변환할 수 있는 모델
sora
Stable Diffusion
(stability.ai)
이미지 생성 모델
stable