NVIDIA L40S — высокопроизводительный графический процессор, разработанный для выполнения задач, связанных с искусственным интеллектом, машинным обучением, генеративными нейронными сетями (включая большие языковые модели), а также для графической визуализации и рендеринга.

Параметры

  • Архитектура: NVIDIA Ada Lovelace
  • Видеопамять: 48 ГБ
  • CUDA-ядра: 18 176
  • Tensor-ядра: 568 (4-е поколение)
  • RT-ядра: 142 (3-е поколение)
  • TF32: 183 TFLOPS (366 TFLOPS*)
  • FP16: 362 TFLOPS (733 TFLOPS*)
  • FP8: 733 TFLOPS (1 466 TFLOPS*)

Сфера применения

  • Обучение и инференс крупных языковых моделей
  • Генеративный AI — мультимодальные нагрузки
  • Рендеринг и 3D-визуализация высокого качества
  • NVIDIA Omniverse и OVX-конфигурации для корпоративного AI

Производительность NVIDIA L40S

NVIDIA L40S

  • TF32 — 183 TFLOPS (366 TLFOPS*)
  • BFLOAT16, FP16 — 362.05 TFLOPS  (733 TFLOPS*)
  • FP8 — 733 TFLOPS (1 466 TFLOPS*)

* в режиме sparisity (определение и удаление некритичных параметров без значимого ухудшения качественных метрик модели)

Сравнение производительности с NVIDIA A100

A100 L40S

Как выбрать

  • A16 — если нужны виртуальные рабочие столы с графикой и максимальная плотность пользователей.
  • L4 — если важна универсальность: инференс, LLM и VDI в одном решении при разумном энергопотреблении.
  • L40S — если задача требует максимум: большие модели, тяжёлый рендеринг, production AI-нагрузки.

Ключевые отличия

  A100 L40S
Архитектура Ampere Ada Lovelace
Память 40 / 80 ГБ HBM2e 48 ГБ GDDR6
Пропускная способность памяти до 2 ТБ/с 864 ГБ/с
FP16 312 TFLOPS 362 TFLOPS (733*)
FP8 не поддерживается 733 TFLOPS (1466*)
TF32 156 TFLOPS 183 TFLOPS (366*)
RT-ядра нет 142 (3-е поколение)

Где A100 лучше

  • Обучение очень больших моделей — HBM2e даёт вдвое большую пропускную способность памяти, это критично при работе с огромными батчами
  • Задачи HPC и научные вычисления — высокая точность FP64

Где L40S лучше

  • Инференс и генеративный AI — поддержка FP8 даёт кратный прирост производительности на современных моделях
  • Рендеринг и 3D-визуализация — есть RT-ядра, A100 для графики не предназначен вообще
  • Универсальность — закрывает и AI, и графические нагрузки одной картой