Описание вакансии
Основные обязанности
- Определение и реализация плана по обеспечению надежности, включая SLO, бюджеты ошибок, планирование мощностей и оптимизацию затрат/производительности
- Установление стандартов платформы для постепенного развертывания, безопасного отката и управления изменениями
- Улучшение наблюдаемости с помощью OpenTelemetry (метрики/логи/трейсинг) и внедрение систем оповещения с возможностью действий
- Контроль программ управления инцидентами, включая дежурства, анализ первопричин и постмортемы для обеспечения постоянного улучшения
- Разработка политик управления секретами и ключами (Vault/HSM/KMS) и усиления инфраструктуры
- Стандартизация операций с блокчейн-нодами/RPC (настройка, обновления, отказоустойчивость) и их интеграция в рабочие процессы сервисов
- Руководство набором команды, наставничество и развитие, а также сотрудничество с командами бэкенда, инфраструктуры, безопасности и продукта
Требования к кандидату
- 5+ лет опыта в DevOps/SRE, включая 2+ года работы с блокчейн-инфраструктурой или критически важными системами
- Глубокие знания Kubernetes, фреймворков автоматизации (Terraform/Helm/Ansible) и CI/CD-конвейеров
- Доказанный опыт обеспечения производственной надежности для крупномасштабных микросервисов
- Практический опыт работы с блокчейн-нодами (Ethereum, Solana, Bitcoin или аналогичными)
- Прочные знания в области наблюдаемости, реагирования на инциденты и усиления систем
- Отличные коммуникативные навыки; предпочтительно владение английским языком
Преимущества
- Командные мероприятия
- Комплексные медицинские обследования
- Годовые бонусы
- Возможности профессионального развития
- Гибкий график работы


