Графический процессор NVIDIA L40S: характеристики и применение

Графический процессор NVIDIA L40S

Обновлено: 9 April 2026 · 2 мин чтения

NVIDIA L40S — высокопроизводительный графический процессор, разработанный для выполнения задач, связанных с искусственным интеллектом, машинным обучением, генеративными нейронными сетями (включая большие языковые модели), а также для графической визуализации и рендеринга.

Параметры

Архитектура: NVIDIA Ada Lovelace
Видеопамять: 48 ГБ
CUDA-ядра: 18 176
Tensor-ядра: 568 (4-е поколение)
RT-ядра: 142 (3-е поколение)
TF32: 183 TFLOPS (366 TFLOPS*)
FP16: 362 TFLOPS (733 TFLOPS*)
FP8: 733 TFLOPS (1 466 TFLOPS*)

Сфера применения

Обучение и инференс крупных языковых моделей
Генеративный AI — мультимодальные нагрузки
Рендеринг и 3D-визуализация высокого качества
NVIDIA Omniverse и OVX-конфигурации для корпоративного AI

Производительность NVIDIA L40S

NVIDIA L40S

TF32 — 183 TFLOPS (366 TLFOPS*)
BFLOAT16, FP16 — 362.05 TFLOPS (733 TFLOPS*)
FP8 — 733 TFLOPS (1 466 TFLOPS*)

* в режиме sparisity (определение и удаление некритичных параметров без значимого ухудшения качественных метрик модели)

Сравнение производительности с NVIDIA A100

A100 L40S

Как выбрать

A16 — если нужны виртуальные рабочие столы с графикой и максимальная плотность пользователей.
L4 — если важна универсальность: инференс, LLM и VDI в одном решении при разумном энергопотреблении.
L40S — если задача требует максимум: большие модели, тяжёлый рендеринг, production AI-нагрузки.

Ключевые отличия

	A100	L40S
Архитектура	Ampere	Ada Lovelace
Память	40 / 80 ГБ HBM2e	48 ГБ GDDR6
Пропускная способность памяти	до 2 ТБ/с	864 ГБ/с
FP16	312 TFLOPS	362 TFLOPS (733*)
FP8	не поддерживается	733 TFLOPS (1466*)
TF32	156 TFLOPS	183 TFLOPS (366*)
RT-ядра	нет	142 (3-е поколение)

Где A100 лучше

Обучение очень больших моделей — HBM2e даёт вдвое большую пропускную способность памяти, это критично при работе с огромными батчами
Задачи HPC и научные вычисления — высокая точность FP64

Где L40S лучше

Инференс и генеративный AI — поддержка FP8 даёт кратный прирост производительности на современных моделях
Рендеринг и 3D-визуализация — есть RT-ядра, A100 для графики не предназначен вообще
Универсальность — закрывает и AI, и графические нагрузки одной картой