NVlabs/VILA

VILA is a family of state-of-the-art vision language models (VLMs) for diverse multimodal AI tasks across the edge, data center, and cloud.

[view on github]last commit: Mar 11, 2026

stars

3,822

7d

+5

30d

+25

90d

+50

## star history

## found in

Awesome Open Source AI/Multimodal Models (Vision + Language)