ToDown
サポート
ToDown
Hamburger Icon
研究
Vision AI
Vision AIは
コンピュータに視覚世界を解釈・理解
させるAIの一分野です。この技術は、
デジタル画像とディープラーニング
モデルを利用して、オブジェクトを正確に
認識し、分類します

Vision AIの進歩は
ハードウェア、ビッグデータ、
アルゴリズム、ディープラーニング
といった技術の進歩に起因し、様々な
産業でイノベーションを主導しています。
lvm-main
発展背景
技術現状
産業変革
XIIlabと
Vision AIの歴史
2010~2012
XIIlab設立
2012年 画像認識コンテストで
Alexnetが優勝し、Vision AIが注目される。
2012~2013
ビッグデータ処理技術の獲得
畳み込みニューラルネットワークなどの
モデルの精度の向上
2013~2017
データベースのAI技術開発に着手
2016年 アルファゴの勝利でAIへの
関心が高まる
2017~2019
AI映像を事業化する能力の獲得
Vision AI市場の拡大
2019~2020
NVIDIAパートナーネットワーク 締結
自動運転などの技術の利用拡大
2021~現在
コスダック上場及び米国法人発足
様々な分野で実用的な応用が可能に
Large Vision
Modelの変遷
TextureからVision Transformer、SAM、
GPTまで発展した後、Large Vision Model
の次のステップはComputer Visionです。
graph
固定された環境認識
- テクスチャ
- 画像パターン
データパターン学習
- ディープラーニング
- Convolutional Neural Networks
(CNNs / 畳み込みニューラルネットワーク)
- レイヤー
- 画像分類
- 物体検出
- セグメンテーション
自動化された管理
- トランスフォーマーアーキテクチャ
- トレーニング時間の短縮
- 長いシーケンスの効果的な処理
GPT、Transformer ベース
- Google、Vision Transformer、
VIT - イメージシーケンス
- CLIP
- 長いシーケンスの効果的な処理
マルチモデル:LVLM
OpenAI (DALL-E, GPT-3, GPT-4)
META, Segment Anything, SAM
Large
Vision-Language
Model, LVLMs
Multi-Modal Learning
画像とテキストを統合して、
より豊富な情報を抽出します。
コンテキスト認識の強化
テキストによる説明と視覚的な
コンテンツを組み合わせて、
より正確かつ詳細な状況を認識します。
Creative Applications
アート生成、説明的キャプション、
対話型AIなどの新しいアプリケーションが
可能になります。
GPT-4 (OpenAI)
Creativity, Visual input,
Longer context
gpt4
DALL-E 3 (OpenAI)
Text to Image
dalle3
SORA (OpenAI)
Models that can convert
text to video
sora
Stable Diffusion
(stability.ai)
Image generation model
stable