NVIDIA L40S — высокопроизводительный графический процессор, разработанный для выполнения задач, связанных с искусственным интеллектом, машинным обучением, генеративными нейронными сетями (включая большие языковые модели), а также для графической визуализации и рендеринга.
Параметры
- Архитектура: NVIDIA Ada Lovelace
- Видеопамять: 48 ГБ
- CUDA-ядра: 18 176
- Tensor-ядра: 568 (4-е поколение)
- RT-ядра: 142 (3-е поколение)
- TF32: 183 TFLOPS (366 TFLOPS*)
- FP16: 362 TFLOPS (733 TFLOPS*)
- FP8: 733 TFLOPS (1 466 TFLOPS*)
Сфера применения
- Обучение и инференс крупных языковых моделей
- Генеративный AI — мультимодальные нагрузки
- Рендеринг и 3D-визуализация высокого качества
- NVIDIA Omniverse и OVX-конфигурации для корпоративного AI
Производительность NVIDIA L40S

- TF32 — 183 TFLOPS (366 TLFOPS*)
- BFLOAT16, FP16 — 362.05 TFLOPS (733 TFLOPS*)
- FP8 — 733 TFLOPS (1 466 TFLOPS*)
* в режиме sparisity (определение и удаление некритичных параметров без значимого ухудшения качественных метрик модели)
Сравнение производительности с NVIDIA A100

Как выбрать
- A16 — если нужны виртуальные рабочие столы с графикой и максимальная плотность пользователей.
- L4 — если важна универсальность: инференс, LLM и VDI в одном решении при разумном энергопотреблении.
- L40S — если задача требует максимум: большие модели, тяжёлый рендеринг, production AI-нагрузки.
Ключевые отличия
| A100 | L40S | |
|---|---|---|
| Архитектура | Ampere | Ada Lovelace |
| Память | 40 / 80 ГБ HBM2e | 48 ГБ GDDR6 |
| Пропускная способность памяти | до 2 ТБ/с | 864 ГБ/с |
| FP16 | 312 TFLOPS | 362 TFLOPS (733*) |
| FP8 | не поддерживается | 733 TFLOPS (1466*) |
| TF32 | 156 TFLOPS | 183 TFLOPS (366*) |
| RT-ядра | нет | 142 (3-е поколение) |
Где A100 лучше
- Обучение очень больших моделей — HBM2e даёт вдвое большую пропускную способность памяти, это критично при работе с огромными батчами
- Задачи HPC и научные вычисления — высокая точность FP64
Где L40S лучше
- Инференс и генеративный AI — поддержка FP8 даёт кратный прирост производительности на современных моделях
- Рендеринг и 3D-визуализация — есть RT-ядра, A100 для графики не предназначен вообще
- Универсальность — закрывает и AI, и графические нагрузки одной картой