R&D 연구(LVM)

研究

Vision AI

Vision AIは
コンピュータに視覚世界を解釈・理解
させるAIの一分野です。この技術は、
デジタル画像とディープラーニング
モデルを利用して、オブジェクトを正確に
認識し、分類します

Vision AIの進歩は
ハードウェア、ビッグデータ、
アルゴリズム、ディープラーニング
といった技術の進歩に起因し、様々な
産業でイノベーションを主導しています。

発展背景

技術現状

産業変革

XIIlabと
Vision AIの歴史

2010~2012

XIIlab設立

2012年画像認識コンテストで
Alexnetが優勝し、Vision AIが注目される。

2012~2013

ビッグデータ処理技術の獲得

畳み込みニューラルネットワークなどの
モデルの精度の向上

2013~2017

データベースのAI技術開発に着手

2016年アルファゴの勝利でAIへの
関心が高まる

2017~2019

AI映像を事業化する能力の獲得

Vision AI市場の拡大

2019~2020

NVIDIAパートナーネットワーク締結

自動運転などの技術の利用拡大

2021~現在

コスダック上場及び米国法人発足

様々な分野で実用的な応用が可能に

Large Vision
Modelの変遷

TextureからVision Transformer、SAM、
GPTまで発展した後、Large Vision Model
の次のステップはComputer Visionです。

固定された環境認識

- テクスチャ
- 画像パターン

データパターン学習

- ディープラーニング
- Convolutional Neural Networks

(CNNs / 畳み込みニューラルネットワーク)

- レイヤー
- 画像分類
- 物体検出
- セグメンテーション

自動化された管理

- トランスフォーマーアーキテクチャ
- トレーニング時間の短縮
- 長いシーケンスの効果的な処理

GPT、Transformer ベース

- Google、Vision Transformer、

VIT - イメージシーケンス

- CLIP
- 長いシーケンスの効果的な処理

マルチモデル：LVLM

OpenAI (DALL-E, GPT-3, GPT-4)

META, Segment Anything, SAM

Large
Vision-Language
Model, LVLMs

Multi-Modal Learning

画像とテキストを統合して、
より豊富な情報を抽出します。

コンテキスト認識の強化

テキストによる説明と視覚的な
コンテンツを組み合わせて、
より正確かつ詳細な状況を認識します。

Creative Applications

アート生成、説明的キャプション、
対話型AIなどの新しいアプリケーションが
可能になります。

GPT-4 (OpenAI)

Creativity, Visual input,
Longer context

DALL-E 3 (OpenAI)

Text to Image

SORA (OpenAI)

Models that can convert
text to video

Stable Diffusion
(stability.ai)

Image generation model