All jobs

DevOps Engineer

RemoteSenior
About the role

Требования

  • +Языки: Python, Java, Bash.
  • +Оркестрация и CI/CD: Kubernetes (k8s), GitLab CI/CD, Helm.
  • +Базы данных и Big Data: PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis.
  • +Observability: Grafana, Prometheus, OpenSearch.
  • +ML & AI Infrastructure: vLLM, LightLLM, GPU-ноды.
  • +Безопасность: Keycloak, OAuth2, HashiCorp Vault.

Чем предстоит заниматься

  • +Администрирование ML-инфраструктуры: Поддержка и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
  • +Развитие CI/CD: Проектирование и улучшение пайплайнов в GitLab CI/CD, ускорение сборок.
  • +Автоматизация рутины: Замена ручных операций на автоматизированные сценарии, разработка ботов и агентов для поддержки команды.
  • +MLOps: Автоматизация жизненного цикла ML-моделей: от обучения и тестирования до деплоя и мониторинга дрейфа данных.
  • +Observability: Настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch) для всех компонентов системы.
  • +Поддержка инфраструктуры: Администрирование серверов команды, обеспечение отказоустойчивости и безопасности.
  • +Интеграция агентских систем: Участие в разработке, интеграции и деплое автономных агентных систем и LLM-приложений.

Что мы ожидаем

  • +Опыт коммерческой администрирования Linux и управления производственными кластерами Kubernetes.
  • +Уверенное владение Helm (написание чартов, управление релизами).
  • +Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
  • +Понимание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault.
  • +Глубокие знания в области Observability: стек Prometheus/Grafana, OpenSearch.
  • +Навыки написания скриптов для автоматизации (Python, Bash).

Будет круто, если вы

  • +Имеете опыт поддержки и администрирования Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
  • +Разрабатывали внутренний тулинг и утилиты на Python.
  • +Сталкивались с задачей оптимизации работы GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач).
  • +Знаете принципы работы LLM и фреймворков для их обслуживания
Stack & Tools