Какую видеокарту выбрать для обучения и инференса нейросетей: обзор NVIDIA L40S, A100, H100 и A40


Для работы с нейросетями и LLM нужна видеокарта с большим объемом памяти — более 40 Гб. Сейчас лидер по производству GPU (GraphicsProcessing Unit) для этих задач — NVIDIA: в третьем квартале 2024 года доля компании на рынке составила 90%. В статье сравниваем четыре модели: L40S, A100, H100 и A40 — и рассказываем, какую видеокарту выбрать для машинного обучения.
Как выбрать видеокарту для работы с ИИ и LLM
Чтобы решать задачи машинного обучения (ML, machine learning), требуется мощная видеокарта. Ее производительность зависит от совокупности характеристик GPU, поэтому нужно смотреть на следующие параметры.
Объем видеопамяти. Для анализа текста и классификации изображений хватит 24 Гб. Но для работы с большими наборами данных и сложными моделями ИИ понадобится видеокарта с памятью более чем на 40 Гб. Иначе производительность ГПУ снизится: процессор успеет обработать информацию, а память не сможет вместить все данные.
Пропускная способность памяти. Видеокарты с показателем 500–1000 Гб/с подходят для таких стандартных задач ML, как анализ текста и классификация набора изображений. Например, для обучения простой нейросети CNN на датасете ImageNet лучше покупать видеокарту с пропускной способностью от 600 Гб/с, иначе процесс будет идти медленно.
Глубокие нейросети нужно обучать на больших объемах данных, поэтому для этих задач требуется видеокарта с пропускной способностью более 1000 Гб/с. Такие GPU обеспечивают быстрый доступ к информации, даже если в модели ИИ триллион параметров.
Формат чисел с плавающей запятой. Определяет, как хранятся и обрабатываются числовые данные в вычислениях. Выбор формата влияет на точность вычислений, скорость работы и энергопотребление GPU. Всего их четыре:
- FP64 — для научных расчетов, где необходима самая высокая точность. Такой формат обрабатывает данные медленно, поэтому его редко используют в современных видеокартах, особенно если они предназначены для работы с ИИ.
- FP32 — для обучения нейросетей, обработки изображений и рендеринга графики. У этого формата оптимальное соотношение между точностью и скоростью вычислений.
- FP16 — для обучения ИИ и глубоких моделей, где нужно быстро обрабатывать большие объемы данных. Точность вычислений уменьшается, но без потери качества. Современные фреймворки часто используют смешанную точность — FP16 и FP32, чтобы увеличить пропускную способность и сократить время обучения нейросети.
- FP8 — для инференса ИИ, компьютерного зрения и распознавания объектов в реальном времени, где скорость обработки данных важнее точности.
Тензорные ядра. Эти модули массово осуществляют параллельные матричные вычисления: умножение, сложение, редукцию. Кроме того, тензорные ядра быстро выполняют операции с пониженной точностью, например FP8 и FP16.
При выборе GPU важно смотреть не только на количество ядер, но и на их поколение. С каждым релизом производитель увеличивает эффективность этих модулей в 2–4 раза. Например, тензорные ядра четвертого поколения, в отличие от третьего, поддерживают дополнительный формат чисел FP8.
Количество тензорных ядер зависит от рабочих нагрузок. Для стандартных задач ML, например инференса небольших моделей, достаточно GPU минимум со 100 тензорными ядрами третьего поколения. Для глубокого обучения нейросетей требуются видеокарты более чем с 400 современными тензорными ядрами.
Количество CUDA-ядер. Это технология, которая используется только в видеокартах NVIDIA. CUDA-ядра эффективно распределяют нагрузку, чтобы параллельно выполнять несколько операций.
При выборе GPU нужно отталкиваться от сложности задач. Например, 2000–5000 CUDA-ядер достаточно для анализа текста или классификации набора изображений. Обучение глубоких нейросетей требует видеокарту более чем с 6000 ядер. Чтобы решать сложные ML-задачи, необходимо от 10 000 ядер.
Чем отличаются видеокарты NVIDIA
Сравним четыре модели NVIDIA GPU для работы с нейросетями: L40S, A100, H100 и A40.
Видеокарта NVIDIA L40S
Производитель называет видеокарту L40S самым мощным универсальным графическим процессором. Она подходит не только для рендеринга 3D-графики и поддержки тяжелых аналитических приложений, но и для работы с нейросетями.
Объем видеопамяти — 48 Гб GDDR6 с ECC, поэтому карта позволяет обрабатывать большие наборы данных. У типа памяти GDDR6 более низкая пропускная способность по сравнению с HBM2e, которым оборудованы A100 и H100. Однако в L40S есть движок Transformer Engine. Он динамически выбирает оптимальный формат чисел: FP8, FP16 или FP32, — что ускоряет обработку информации до двух раз. При этом FP8 уменьшает объем данных в два раза по сравнению с FP16.
L40S можно применять для разных задач:
- Для обучения и инференса ИИ — движок Transformer Engine и тензорные ядра четвертого поколения с поддержкой FP8 ускоряют работу нейросети и эффективно распределяют ресурсы памяти при обучении и инференсе.
- Для обучения LLM — L40S подходит для обработки больших языковых моделей, например GPT, BERT и DeepSeek.
Видеокарта L40S — оптимальный выбор по соотношению стоимости и качества. С помощью этого GPU можно не только закрывать стандартные задачи ML, но и работать со сложными моделями. В нашей облачной платформе облачные серверы с видеокартами NVIDIA L40S 48Gb доступны к аренде.
Видеокарта NVIDIA Tesla A100
Объем видеопамяти NVIDIA A100 — 40 и 80 Гб HBM2e. У второго решения пропускная способность в три раза выше, чем у первого. Именно поэтому видеокарта на 80 Гб подходит для работы с самыми большими моделями и объемами данных, например DLRM.
В A100 реализована технология Multi-Instance GPU (MIG). Видеокарту можно разбить на семь независимых машин или подкарт разного размера, чтобы они параллельно обрабатывали отдельные задачи. Это позволяет эффективно распределить вычислительные ресурсы и увеличить пропускную способность при инференсе ИИ в семь раз.
Вот для чего применяют A100:
- Обучение и инференс ИИ. Видеокарта A100 поддерживает FR64 — тензорные ядра двойной точности. Это ускоряет операции над тензорами, поэтому с помощью GPU на 80 Гб можно сократить 10-часовое моделирование до четырех часов.
- Обучение LLM. В совокупности 6912 CUDA-ядер, 432 тензорных ядра и пропускная способность 1935–2039 Гб/с позволяют использовать видеокарту A100 для обработки огромных наборов данных и сложных вычислений. Этот GPU применяют в больших дата-центрах и компаниях для обучения моделей, которые требуют высоких мощностей.
У NVIDIA A100 80 Гб есть две модели: PCIe и SXM. У них разная производительность и возможности интеграции. Видеокарта с PCIe более универсальная, чем SXM, и совместима с большинством серверов. Но у модели с SXM выше производительность, что больше подходит для работы с нейросетями и интенсивными вычислениями.
В A100 большой объем видеопамяти и пропускная способность, но такая карта стоит примерно в два раза дороже L40S. Это соотношение между ценой и качеством работы не делает A100 оптимальным выбором среди аналогов. В ряде задач видеокарта L40S опережает A100, так как оснащена RT и Tensor-ядрами уже 4-го поколения, а также поддерживает работу в форматах FP8 и INT8 с более высокой скоростью чем A100, и опережает в задачах LLM инференса с квантизацией, например при работе с LLaMA.
Видеокарта NVIDIA Tesla H100
NVIDIA H100 — наиболее дорогая видеокарта. У нее самый большой объем и пропускная способность памяти — 80–90 Гб и 3.35–3.9 Тб/с соответственно, поэтому она предназначена для высокопроизводительных вычислений.
GPU NVIDIA H100 80 GB быстрее других видеокарт решает задачи, которые связаны с анализом данных и машинным обучением. В сравнении с A100 производительность H100 в семь раз выше.
Видеокарту H100 применяют для следующих задач:
- Обучение и инференс ИИ. Для вычислений видеокарта использует стандарты с разной точностью: FP64, FP32, FP16 и FP8. Именно поэтому у H100 скорость обучения ИИ в четыре раза выше, чем у A100. Еще в H100, как и в L40S, есть движок Transformer Engine. Он увеличивает производительность видеокарты и при этом сокращает объем обрабатываемых данных.
- Работа с LLM. У видеокарты H100 456 тензорных ядер четвертого поколения. Это обеспечивает высокую производительность, сохраняет точность для LLM и ускоряет инференс больших моделей ИИ в 30 раз по сравнению с другими картами.
У H100 есть модели с двумя видами формфактора: NVL и SXM. У них разное энергопотребление: первый вариант рассчитан на работу в пределах 350 Вт, а второй — 700 Вт. Именно поэтому NVL подходит для стандартных серверных систем и дата-центров, а SXM — для крупномасштабных рабочих нагрузок HPC и ИИ. В нашем рейтинге это самая быстрая видеокарта, применимая для работы в стандартных серверах.
Видеокарта NVIDIA Tesla A40
Объем памяти NVIDIA A40 — 48 Гб GDDR6 с ECC. Такая видеокарта подходит для задач, которые требуют обработки больших объемов данных.
Видеокарта поддерживает программное обеспечение Virtual GPU (vGPU). Эта технология позволяет нескольким удаленным пользователям совместно работать на одном процессоре, поэтому не нужно приобретать отдельные физические GPU.
Вот примеры использования A40:
- Обучение ИИ. Тензорные ядра третьего поколения с технологией TF32 обеспечивают достаточно высокую пропускную способность, но она всё равно остается на 20% меньше, чем у L40S. Именно поэтому A40 подходит для работы с интенсивными вычислениями, но работа будет идти медленнее.
- Инференс ИИ. В A40 есть технология разреженности данных Structural sparsity. Это решение увеличивает производительность видеокарты при работе алгоритмов нейросетей и не снижает общую точность инференса.
- Работа с LLM. A40 в целом подходит для глубокого обучения моделей и сложных вычислений. Однако результаты тестов показывают, что с этой картой скорость вывода для модели Llama2 минимум на 10,5% ниже, чем с L40S.
Видеокарта A40 значительно уступает по производительности и технологиям более новой L40S, сравним ниже в таблице.
Сравнение видеокарт NVIDIA для работы с ИИ и LLM
L40SАрхитектура: Ada Lovelace |
A100Архитектура: Ampere |
H100Архитектура: Hopper |
A40Архитектура: Ampere |
Резюме: какой GPU выбрать для обучения нейросетей
Среди четырех видеокарт NVIDIA для работы с ИИ и LLM оптимальный вариант — L40S. Решение подходит как для обучения и инференса нейросетей, так и для обработки больших языковых моделей. При этом видеокарта L40S стоит в 2–4 раза дешевле аналогов, а переплачивать за больший объем памяти и производительность часто нет необходимости.
Покупка GPU для решения задач в области ИИ для внутреннего использования требует больших вложений — например, на L40S в среднем требуется от 900 000 рублей только за видеокарту, не считая вложений в серверное оборудование и платформу. В большинстве случаев, как с целью тестирования и ознакомления, так и с целью долговременного использования, видеокарты для GPU-серверов арендуют у облачного провайдера.
Если бюджет ограничен или памяти от 48ГБ для работы с нейросетями не требуется, разумно будет обратить внимание на видеокарты NVIDIA L4 24Gb, они быстрее до 40% видеокарт предыдущего поколения NVIDIA T4 и, часто доступны к аренде по аналогичной цене.
На что обратить внимание при выборе GPU-облака и сколько стоит такая услуга, рассказывали в статье.
В mClouds можно арендовать облачный сервер с видеокартой L40S, которая имеет 48 Гб памяти и 18 176 CUDA-ядер. С помощью этого GPU пользователи решают такие задачи, как обучение и инференс ИИ высокой интенсивности, обработка больших языковых моделей. На нашем виртуальном сервере можно запустить все популярные нейросети LLM — например Llama, Mistral, Phi, Gemma, DeepSeek и Qwen.

Как облачные серверы с GPU ускоряют работу с BIM и CAD: рассказываем, какие видеокарты подойдут для ваших проектов и как выбрать конфигурацию.
28 ноября, 2024
Изучаем облачный сервер с GPU: показываем преимущества и сферы применения, собираем конфигурации под разные задачи и считаем, сколько это стоит.
15 ноября, 2024