MLOps-инженер — это DevOps для машинного обучения. Он строит инфраструктуру, на которой ML-команды тренируют модели, выкатывают их в продакшн и следят, чтобы качество не деградировало со временем. От обычного DevOps-инженера отличается глубиной понимания ML-жизненного цикла, работой с GPU-кластерами и специфическими инструментами вроде MLflow и DVC. Зарплатная вилка в Москве в 2026 году — от 280 до 600 тысяч рублей. Чем занимается MLOps-инженер MLOps-инженер живёт между data scientists и обычной продуктовой инженерией. Data scientists хотят быстро итерироваться по экспериментам и не думать об инфраструктуре, продакшн требует воспроизводимости, мониторинга и предсказуемой стоимости. Задача MLOps — построить контур, в котором обе стороны довольны. Типичный рабочий день начинается с проверки прошедших ночью пайплайнов тренировки. Один из джобов упал на стадии валидации — смотрите логи, обнаруживаете, что версия фичи в feature store изменилась и сломала схему. Чините трансформер, перезапускаете джоб. Параллельно идёт работа над выкаткой новой версии модели: смотрите метрики на canary-трафике, сравниваете распределения предсказаний с базовой моделью. Вторая половина дня — инфраструктурные задачи: оптимизация GPU-кластера (kubeflow scheduler не оптимально размещает джобы, treemap по утилизации показывает простои), миграция feature store на новый бэкенд, настройка мониторинга drift'а для пятнадцати моделей в проде. Раз в неделю — встреча с ML-командой по архитектуре нового пайплайна: обсуждаете, как версионировать данные, где хранить артефакты, какой формат служения модели выбрать (REST, gRPC, batch). Отдельный пласт работы — деплой и обслуживание LLM. Это отдельный мир по сравнению с классическими ML-моделями: нужно думать про vLLM или TGI как inference engine, про KV-cache и батчинг, про tensor parallelism на нескольких GPU. MLOps в командах, которые поднимают свои языковые модели, — это уже почти отдельная роль. Параллельно появляется работа с retrieval-augmented generation: векторные базы данных (pgvector, Qdrant, Milvus), обновление эмбеддингов, evaluation качества RAG-пайплайна на разметке. Большая часть рутины — обеспечение воспроизводимости. Когда через полгода data scientist приходит и говорит «модель версии 1.4 в проде ведёт себя странно, давайте сравним с тренировочным запуском», MLOps должен иметь возможность поднять тот же датасет, тот же код, те же гиперпараметры и получить байт-в-байт сходимость. Это требует дисциплины: версионирование данных, locked-зависимости, артефакты, привязанные к коммитам, контейнеры с фиксированными версиями CUDA. Отдельная задача — мониторинг моделей в проде. Модель, которая на тренировочном датасете показывала отличные метрики, через два месяца после релиза может деградировать из-за смены распределения входных данных (data drift), смены поведения пользователей (concept drift) или изменений в зависимых сервисах. MLOps настраивает алерты на эти три вида сдвига и выстраивает процесс реагирования. Hard skills и инструменты Стек MLOps в 2026 году собирается из обычных DevOps-инструментов плюс ML-специфичные слои. ML-фреймворки на уровне эксплуатации — PyTorch и его экосистема (PyTorch Lightning, TorchServe), TensorFlow/Keras, JAX, Hugging Face Transformers. Не нужно уметь обучать модель с нуля, но нужно понимать, как она ест память, что такое batch size и mixed precision. Управление экспериментами и моделями — MLflow, Weights and Biases, Neptune, ClearML. Регистр моделей, отслеживание гиперпараметров, артефакты, model lineage. Версионирование данных — DVC, lakeFS, Pachyderm. Умение организовать воспроизводимый пайплайн, в котором можно вернуться к данным двухмесячной давности и переобучить модель один в один. Pipeline-оркестрация — Kubeflow Pipelines, Airflow, Prefect, Dagster, Argo Workflows. Дизайн DAG'ов с retry-стратегиями, обработкой ошибок, динамическим параметризованием. Feature stores — Feast, Tecton, Hopsworks. Понимание различия online и offline хранилищ, контроль за консистентностью feature serving между обучением и инференсом. Inference и serving — TorchServe, Triton Inference Server, KServe, BentoML, vLLM и TGI для LLM. Тюнинг батчинга, квантизация, A/B и shadow deployment. GPU-инфраструктура — NVIDIA driver и CUDA на уровне эксплуатации, GPU operator в Kubernetes, MIG-партиционирование, инструменты мониторинга (DCGM, NVTOP), spot/preemptible GPU и graceful обработка прерываний. Мониторинг ML — drift detection (data drift, concept drift, prediction drift), Evidently, WhyLabs, Arize. Интеграция ML-метрик с обычным observability-стеком (Prometheus, Grafana). Карьерный путь: junior → middle → senior Junior MLOps-инженер в Москве в 2026 году получает 200–280 тысяч рублей. На этом грейде ожидается уверенный Python, базовые знания Kubernetes и CI/CD, понимание ML-цикла без претензии на самостоятельное обучение моделей. Junior работает с готовыми пайплайнами: помогает командам выкатить модель по чек-листу, чинит баги в шаблонных Kubeflow-компонентах, поднимает GPU-узлы по тикету. За первый год нарабатывается опыт чтения кода data scientists, понимание типичных проблем (утечка памяти на GPU, расхождение фичей между обучением и инференсом, несовместимость версий CUDA) и базовая дисциплина воспроизводимости. Middle MLOps-инженер зарабатывает 320–450 тысяч. К этому моменту вы проектируете пайплайн обучения с нуля, разбираетесь в feature store на уровне внедрения, ведёте миграции inference-сервисов с одного бэкенда на другой. Middle часто становится точкой контакта между ML-командой и платформой: переводит требования data scientists в инфраструктурные задачи и обратно. На этом уровне начинается специализация: классические табличные модели, computer vision, NLP и LLM, рекомендательные системы — каждая область со своей спецификой инфраструктуры. Senior MLOps-инженер в Москве получает 480–600 тысяч и выше. В компаниях, где ML — основной продукт (банки, рекламные платформы, маркетплейсы, поисковые сервисы), senior с сильным резюме закрывает 700+ тысяч. Senior отвечает за платформу целиком: дизайн feature store, выбор inference-стека, GPU-стратегия, организация on-call для production-моделей. От него ждут участия в архитектурных дискуссиях ML-команд и в стратегических решениях по железу. Senior часто проектирует сквозной процесс ML-релизов: как модель попадает в стейджинг, какие проверки она проходит, как принимается решение о выкатке в прод, как ведётся мониторинг и rollback. После senior карьера разветвляется. ML Platform Lead / Principal MLOps — техническая ветка с горизонтом ответственности на всю ML-инфраструктуру компании. ML Infrastructure Manager / Head of MLOps — управленческая, где основная работа — найм специфической команды, бюджет на GPU и стратегические партнёрства с вендорами железа. Часть сильных MLOps-инженеров переходит в ML-инженерные роли с прокачкой ресёрч-составляющей или в продакт-менеджмент ML-направлений. Сколько зарабатывает MLOps-инженер в 2026 году Москва — лидер рынка. Junior 200–280 тысяч, middle 320–450 тысяч, senior 480–600 тысяч, в крупных компаниях с собственной ML-платформой и LLM-направлением встречаются предложения 700–900 тысяч. Бонусы и долгосрочные программы вознаграждения распространены сильнее, чем в обычном DevOps, — рынок специалистов уже, спрос растёт. Санкт-Петербург отстаёт на 10–15%: junior 180–250 тысяч, middle 290–410 тысяч, senior 420–550 тысяч. Региональные центры — Казань, Новосибирск, Екатеринбург, Иннополис — предлагают 150–230 тысяч на старте и 380–500 тысяч на senior. ML-команды концентрируются вокруг крупных компаний, поэтому география вакансий уже, чем у обычного DevOps. Удалёнка работает: GPU-кластеры всё равно живут в дата-центре, физическое присутствие не нужно. Многие компании платят по московской сетке независимо от локации, если кандидат сильный. Работа на международных работодателей даёт прирост 40–80% к рублёвому эквиваленту, особенно в сегменте генеративного ИИ — там зарплаты на западных рынках кратно выше. Внутри России сильный прирост к ставке даёт опыт работы с собственными большими моделями: компании, которые поднимают свои LLM, готовы платить премию за инженеров с реальным опытом многоузлового обучения и эксплуатации vLLM/TGI под нагрузкой. На рост зарплаты сильнее всего влияет опыт работы с реальными production-моделями под нагрузкой, знание GPU-инфраструктуры на низком уровне (CUDA-окружение, NCCL, межузловое взаимодействие при распределённом обучении) и опыт деплоя LLM в продакшн. Кандидат с реальным проектом на vLLM или TGI с тысячами RPS котируется кратно выше теоретика. Дополнительный плюс — навыки FinOps на GPU: GPU-кластер легко обходится в десятки миллионов рублей в месяц, и инженер, который умеет на 30% сократить расходы без потери производительности, окупает свою зарплату многократно. Где учиться Базовое образование — высшее техническое с математическим уклоном: прикладная математика и информатика, программная инженерия, информатика и вычислительная техника, фундаментальная информатика. ФГОС-направления — 09.03.01, 09.03.02, 09.03.03, 09.03.04, 01.03.02, 02.03.02. Магистратура по ML или анализу данных — плюс на старте, но не обязательное условие. Переход в MLOps идёт двумя путями. Первый — из DevOps: дочитать про специфику ML-цикла, разобрать MLflow и Kubeflow на pet-проекте, поучиться разворачивать готовые модели через Triton или KServe. Второй — из data science: обычно сложнее, потому что не хватает инфраструктурной базы, нужно подтягивать Linux, Kubernetes, networking. Полезные ресурсы — open-source книги «Designing Machine Learning Systems», «Machine Learning Engineering», документация MLflow и Kubeflow, материалы по vLLM и TGI, открытые курсы по системному дизайну ML. Сильный практический ход — pet-проект с законченной инфраструктурной частью: возьмите открытый датасет, обучите модель в воспроизводимом пайплайне с DVC и MLflow, разверните inference-сервис в Kubernetes-кластере, добавьте мониторинг drift'а и автоматический rollback. Этот артефакт на собеседовании работает сильнее любого сертификата, особенно если показать историю изменений в репозитории и явные дизайн-решения с обоснованием. Сертификации в ML слабее работают, чем в обычном cloud-сегменте, но базовые помогают. AWS Certified Machine Learning Specialty, Google Professional Machine Learning Engineer, сертификации NVIDIA по работе с GPU, плюс стандартные DevOps-сертификации (CKA, Terraform Associate). На собеседованиях больше веса имеет реальный pet-проект с выложенными артефактами и развёрнутой моделью, чем строчка в резюме. Похожие специализации ML-инженер — отвечает за разработку моделей и их продакшн-качество, пересекается с MLOps на стыке деплоя и мониторинга. Data Engineer — строит пайплайны данных, на которых тренируются модели, частый партнёр MLOps в команде. LLM Engineer — узкая специализация, фокус на больших языковых моделях, prompt engineering и retrieval-augmented generation. Platform Engineer — собирает общую внутреннюю платформу, MLOps часто оказывается её специализированной частью для ML-команд. AI Infrastructure Engineer — близкое название к MLOps, в крупных компаниях с собственными моделями употребляется как синоним.