Как развернуть LLM на сервере или локально на примере Llama 3.2


По данным исследований, в 2024 году 54% российских компаний внедрили ИИ‑решения. Нейросети помогают бизнесу разрабатывать контент, анализировать большие объемы данных, автоматизировать повседневные задачи, писать программные коды. Можно пользоваться сторонними ИИ-сервисами, однако надежнее и выгоднее развернуть собственную LLM. Такой вариант поможет защитить информацию от утечки и адаптировать модель под задачи бизнеса. В статье рассказали, как быстро развернуть свою LLM на примере Llama 3.2.
LLM модели и варианты их внедрения
Большая языковая модель (LLM) — нейронная лингвистическая сеть, которая разработана для работы с текстовыми данными. Она содержит в себе большое число параметров — переменных, которые меняются в процессе машинного обучения. Например, у GPT-2 Small —124 млн параметров, у Llama 2 — до 70 млрд параметров, у GPT-4 —1,2 трлн параметров.
Существует два основных вида языковых моделей: с открытым или закрытым исходным кодом:
Закрытые LLM. Это запатентованные модели, которые разрабатывают и поддерживают конкретные организации, например крупные технологические компании. Доступ к таким моделям обычно платный. Решения уже готовы к развертыванию, поэтому запустить их можно быстро. Однако у них есть ряд недостатков: дообучить такие модели самому не получится. Кроме того, стоят они достаточно дорого.
Например, к закрытым моделям относится GPT-4 o1, которая способна «рассуждать» как человек. Она подходит для решения сложных задач в естественных науках, программировании и математике.
Также закрытыми являются модели Claude: Opus для решения особо сложных задач и Sonnet, которую оптимально использовать для бизнес-сценариев. Обе могут анализировать и учитывать информацию из объемных документов, статей, диалогов, генерировать тексты, обрабатывать изображения, таблицы, графики и схемы.
LLM с открытым исходным кодом. Это модели с публичным доступом к исходному коду — разработчики и организации могут их свободно использовать, модифицировать и распространять. Открытые LLM доступны компаниям с разным бюджетом, у них нет лицензионных платежей за использование. Их можно дообучать и настраивать под задачи бизнеса. А множество информации в открытых источниках позволяет найти решение возможных проблем.
Например, открытая модель Mixtral 8x7B может работать с контекстом из 32 тысяч токенов. Благодаря этому она способна участвовать в длинных разговорах, говорить на нескольких языках и обрабатывать большой объем информации. Токены — это минимальные единицы текста, на которые ИИ разбивает запрос. Каждый токен переводится в числовой код, на их основе модель обучается распознавать закономерности и создавать ответы. Чем больше токенов может обработать модель, тем точнее будет результат. У новейшей GPT-4.1 контекстное окно составляет 1 млн токенов.
Еще одна модель с открытым исходным кодом — DeepSeek-R1. Может писать и редактировать тексты, обобщать информацию из разных источников. Поддерживает 15 языков, но наиболее эффективно работает на английском и китайском. Размер контекстного окна DeepSeek-R1 — 128 тысяч токенов.
LLM с открытым исходным кодом можно развернуть на собственной инфраструктуре без пересылки информации на сторонние серверы. Благодаря этому пользователи получают полный контроль над данными, которые обрабатывает нейросеть.
Существует несколько вариантов внедрения LLM в бизнес:
- Готовое решение. Это самый быстрый вариант. Бизнес может использовать уже обученную (закрытую) модель без значительных доработок. Однако за нее придется регулярно платить компании-разработчику.
- Доработка базовых инструментов. Для этого бизнес берет базовую модель с открытым кодом. Этот вариант сложнее и дороже, чем использование лицензионных LLM. Однако у него есть и плюсы: компания может настроить и дообучить нейросеть под конкретную специфику и задачи. Кроме того, такой вариант безопаснее, так как базовую модель можно развернуть на собственном оборудовании.
- Полная кастомная интеграция. Это разработка собственной модели, ее интеграция и масштабирование. Такой путь вряд ли стоит выбирать небольшому и среднему бизнесу, так как он требует больших затрат на покупку оборудования, оплату специалистов, обучение модели.
Зачем запускать ИИ у себя на сервере
Развертывание LLM локально на собственном сервере или ПК дает бизнесу ряд преимуществ:
- Конфиденциальность и безопасность данных. При развертывании модели на собственном оборудовании бизнесу не нужно пересылать данные на сторонние сервисы. Это снижает риск утечки конфиденциальной информации. Например, если сотрудник загрузит в LLM данные о продажах и клиентах компании, они не попадут на внешний ресурс.
Кроме того, если бизнес использует LLM на открытом ресурсе, злоумышленники могут изменить открытый код, чтобы получить персональные данные. Например, при работе с нейросетью через бота в соцсетях или мессенджерах.
Возможность настройки. При локальном развертывании можно настроить модель под специфику и задачи бизнеса или дообучить ее на данных компании. Например, научить нейросеть понимать и использовать профессиональную терминологию и специфику отрасли. Или писать рекламные объявления в корпоративном стиле и поддерживать нужный Tone of Voice.
- Возможность автономного использования. При локальном развертывании с помощью платформ Ollama, LM Studio пользоваться моделью можно даже без подключения к интернету.
Локальное развертывание модели обойдется дешевле: компании не придется регулярно платить за лицензионные подписки — базовые модели с открытым кодом доступны бесплатно. Однако бизнесу могут понадобиться средства на покупку оборудования: мощные процессоры, видеокарты, большой объем оперативной памяти. Оптимизировать первоначальные вложения можно, если арендовать оборудование в облаке. К тому же это поможет компании быстрее развернуть LLM. Провайдер возьмет на себя техподдержку и обновления, обеспечит высокий уровень отказоустойчивости систем.
Как выбрать сервер для запуска ИИ
Выбор серверов для работы с ИИ и обучения нейросетей зависит от различных факторов: задач бизнеса, требований к производительности, бюджета. Обычные серверные конфигурации, которые подходят для веб-приложений или баз данных, могут быть неэффективны для развертывания LLM.
Вот несколько ключевых аспектов, на которые стоит обратить внимание при выборе сервера:
GPU. Для LLM необходимы графические процессоры. Они в десятки раз ускоряют инференс и обучение LLM за счет высокой производительности. Подробнее разные модели GPU мы рассмотрели в статье «Какую видеокарту выбрать для обучения и инференса нейросетей: обзор NVIDIA L40S, A100, H100 и A40».
Центральный процессор CPU. Он управляет данными, загрузкой модели в GPU, пре- и постобработкой. Хотя LLM требуют меньше CPU, чем GPU, слабый процессор станет бутылочным горлышком. Поэтому у него должно быть не менее 32 ядер — как, например, у AMD EPYC 9374F. Также важна тактовая частота: чем она выше, тем больше операций может выполнить процессор за одну секунду. Для работы с нейросетями желательно, чтобы частота была выше 3 ГГц.
Оперативная память и хранение. Недостаточный объем RAM или медленное хранилище увеличивает время запуска системы и снижает отзывчивость при изменении моделей. Для обучения или инференса нейросети объем памяти должен быть как минимум в два раза выше, чем объем памяти видеокарты. Например, чтобы загрузить память в 24 ГБ на видеокарте, потребуется от 48 ГБ оперативной памяти. А для быстрой загрузки датасетов и модели лучше работать с локальными NVMe дисками.
Существуют специализированные серверы и платформы, которые предназначены специально для обучения и развертывания нейросетей. Например, у нас в mClouds вы можете арендовать сервер с графическим процессором NVIDIA L40S с памятью 48 ГБ. Он оптимально подходит длявыполнения задач, связанных с ИИ и машинным обучением. NVIDIA L40S базируется на микроархитектуре Ada Lovelace и содержит тензорные ядра четвертого поколения с поддержкой FP8 для ускорения вычислений. А если достаточно 24 ГБ памяти, выбирайте сервер с NVIDIA L4 — выйдет значительно дешевле.
Какие инструменты можно использовать для быстрого старта
Есть три основных фактора, из-за которых бизнесу может быть сложно использовать открытые LLM модели на своем сервере:
- Высокая стоимость. Чтобы использовать LLM с высокой нагрузкой и множеством пользователей, компании понадобится как минимум один GPU-процессор. А для эффективного дообучения LLM под задачи бизнеса их потребуется несколько. Такое оборудование стоит дорого, и не каждая компания может его себе позволить. Например, покупка видеокарты NVIDIA L40S обойдется бизнесу от 800 тысяч рублей. Кроме того, понадобится еще приобрести серверную платформу, общая стоимость которой может быть выше 3–4 млн рублей. И это только затраты на оборудование, без учета эксплуатационных расходов. Быстрее, проще и дешевле арендовать всё необходимое в облаке: бизнес получит готовую к работе среду через 15 минут.
- Недостаточно высокое качество. Открытые LLM могут ошибаться, так как обучались на общих данных. Чтобы они были способны успешно решать бизнес-задачи, их необходимо дообучать. А это требует от компании дополнительных затрат.
- Нехватка специалистов. Бизнесу может быть сложно найти специалиста, который сможет быстро развернуть локальную LLM. Для этого он должен понимать, какая инфраструктура нужна под конкретные запросы компании, какие методы оптимизации стоит применять и как они влияют на работу модели. Таких специалистов на рынке немного, и спрос на них высокий.
Существуют инструменты, которые помогут решить эти проблемы: снизить расходы на GPU, ускорить дообучение моделей и увеличить их производительность:
- LMDeploy. Это набор инструментов для сжатия, развертывания и обслуживания LLM, его разработали команды MMRazor и MMDeploy. С помощью службы распределения запросов LMDeploy облегчает развертывание сервисов с несколькими моделями на нескольких машинах. Его можно интегрировать в приложения, которые используют API OpenAI. Это позволяет легко переходить от сервисов OpenAI к запуску собственных моделей на более доступных вычислительных ресурсах.
Для профессиональной работы LMDeploy понадобится мощный графический процессор. Например, благодаря своим техническим характеристикам NVIDIA L40S — идеальная платформа для ускорения мультимодальных рабочих нагрузок генеративного ИИ.
- LM Studio. Это приложение, с помощью которого можно запускать языковые модели ИИ прямо на компьютере. У него простой графический интерфейс, который не нужно долго осваивать. Пользователи могут запускать диалоги с нейросетью буквально в пару кликов, без лишних технических сложностей. Приложение позволяет легко управлять моделями, наборами данных и конфигурациями. За счет интеграции с Hugging Face можно искать и загружать LLM модели напрямую из приложения.
LM Studio доступно для macOS, Windows и Linux. Требования к RAM и GPU зависят от конкретной LLM, но для эффективной работы больше подойдет графический процессор с объемом памяти не менее 16 ГБ. Например, можно начать с NVIDIA L4 на 24 ГБ.
- Ollama. Это фреймворк для локального запуска LLM моделей. В отличие от LM Studio, в нем нет графического интерфейса, то есть писать запросы нужно в терминале. Приложение доступно для macOS, Linux и Windows.
Почему модель Llama подходит для быстрого развертывания
Рассмотрим модель Llama 3.2 в качестве примера LLM. Сейчас это последняя официально выпущенная версия языковой модели с открытым исходным кодом. Ее основная особенность — это способность работать напрямую на устройствах пользователя. Можно, например, обрабатывать текст, аудио и видео прямо на мобильном телефоне или планшете. При этом подключение к интернету необязательно: модель будет работать и без него.
Вот некоторые задачи, которые может выполнять Llama 3.2:
- Генерировать и интерпретировать текст, аудио и видео. Например, она может быстро заполнить отчет, провести анализ финансовых данных или подготовить юридическое заключение.
- Обрабатывать большие объемы данных.
- Делать машинный перевод.
- Генерировать фрагменты кода на различных языках программирования.
В новой версии Llama предусмотрено две модели, которые работают с изображениями (с 11 и 90 млрд параметров), а также две облегченные текстовые модели (с 1 и 3 млрд параметров), рассчитанные на использование на мобильных устройствах.
Получить доступ к модели можно несколькими способами: скачать на официальном сайте, развернуть с помощью LM Studio или другого инструмента.
Пошаговый гайд: от загрузки модели до запуска
Рассказываем пошагово, как развернуть LLM с помощью LM Studio на примере модели Llama 3.2. Запустить модель легко и быстро: длительная подготовка и глубокие технические знания не требуются.
1. Загрузите и установите LM Studio
Зайдите на сайт компании. Из-за ограничений он может не открываться в России, тогда нужно будет зайти на него через VPN.
Скачайте установочный файл для вашей ОС. LM Studio доступна для macOS, Windows и Linux.
2. Запустите LM Studio
После установки откройте приложение и перейдите на страницу поиска LLM моделей. Найдите Llama 3.2 и выберите подходящую версию. Например, 3B для легких приложений или 11B для более сложных задач.
3. Загрузите Llama 3.2
Модель можно скачать напрямую с сайта LM Studio.
4. Настройте модель
После загрузки вы можете настроить различные параметры:
Отрегулировать длину контекста. Это максимальное количество токенов, которое модель может обработать одновременно. Llama 3.2 поддерживает до 128 Кбайт. Чем длиннее контекст, тем больше информации модель может использовать, чтобы генерировать релевантный и согласованный текст.
Установить значения температуры и P-tuning. Эти параметры нужно настраивать, чтобы получать от нейросети более творческие, разнообразные и интересные результаты, адаптируя ее под конкретные задачи или приложения:
- Настройка температуры в нейросети позволяет контролировать характер и качество ответа. Более низкая температура, например 0.2, приводит к более предсказуемым и консервативным результатам нейросети. А более высокую, например 0.8, стоит выбирать, если вы хотите получить больше креативности и разнообразия в ответах.
- P-tuning в нейросети нужен для проверки качества контента, который генерирует нейросеть. Например, выявлять тексты с грамматическими ошибками или неполными предложениями.
Вы можете попробовать изменить также другие настройки, чтобы поведение модели точнее отвечало вашим задачам.
Выводы
Чтобы развернуть LLM на сервере или ПК, необязательно обладать глубокими техническими знаниями. Например, версии 1В и 3В Llama может запустить любой пользователь на своем компьютере или планшете. Они больше подойдут для задач, связанных с текстами.
Если вам нужна мультимодальная нейросеть, которая сможет работать также с аудио и видео, можно выбрать версии 11В и 90В. Однако для их запуска понадобится уже более мощное и дорогостоящее оборудование. Для этого можно арендовать сервер с графическим процессором: NVIDIA L40S или NVIDIA L4. Они оптимально подходят для работы с большими языковыми моделями, для машинного обучения, графической визуализации и рендеринга.

Пошаговое руководство по разворачиванию модели DeepSeek на своем сервере. Объясняем, какую конфигурацию выбрать, как установить Ollama и подключить Open WebUI.
21 апреля, 2025
Как машинное обучение и LLM помогают увеличивать продажи? В статье разбираем что такое ML и LLM и как бизнесу их применять.
19 марта, 2025
Рассказываем, как начать работу с ИИ: протестировали нейросеть Whisper для преобразования речи в текст на разных конфигурациях оборудования и ОС.
15 января, 2025