Описание должности
Роль предполагает разработку, оптимизацию и поддержку платформы больших данных компании, участие в проектировании и реализации систем сбора, обработки, моделирования и анализа данных для поддержки принятия бизнес-решений и интеллектуальных приложений.
Ключевые обязанности
- Участие в проектировании архитектуры платформы больших данных и выборе технологий, разработка и поддержка конвейеров обработки данных (Data Pipeline).
- Реализация задач очистки данных, ETL, агрегации и вычислений с использованием таких фреймворков, как Hadoop/Spark/Flink.
- Разработка и оптимизация систем офлайн-аналитических запросов, таких как Hive/Presto/ClickHouse.
- Проектирование и реализация обработки потоков данных в реальном времени (например, Kafka, Flink, Spark Streaming).
- Сотрудничество с аналитиками данных и инженерами алгоритмов для предоставления высококачественных интерфейсов и сервисов данных.
- Оптимизация производительности кластера больших данных, мониторинг ресурсов, планирование задач и обработка исключений.
- Подготовка технической документации, установление стандартов разработки и продвижение стандартизации и автоматизации в инженерии данных.
Требования к должности
- Диплом бакалавра или выше в области компьютерных наук, программной инженерии, инженерии данных или смежных областях.
- Знание экосистемы Hadoop (HDFS, YARN, Hive, HBase, Spark, Flink, Kafka и т.д.).
- Хорошие навыки SQL и знакомство хотя бы с одним языком программирования (Python/Java/Scala).
- Опыт разработки ETL и моделирования хранилищ данных (размерное моделирование, схемы «звезда»/«снежинка»).
- Знание Linux-среды, написание скриптов на Shell и инструментов планирования данных (например, Airflow/Azkaban/DolphinScheduler).
- Опыт работы с облачными платформами больших данных (AWS EMR, GCP BigQuery, Azure Synapse, Aliyun MaxCompute) будет плюсом.
- Хорошие коммуникативные навыки, умение решать проблемы и самостоятельно выполнять проекты.
Предпочтительные квалификации
- Опыт работы с системами вычислений в реальном времени или сбора логов (например, Flink + Kafka + Druid).
- Знание вопросов безопасности данных, защиты конфиденциальности и механизмов контроля доступа.
- Опыт поддержки рабочих процессов обработки данных для машинного обучения.
- Опыт работы в крупных интернет-проектах или финансовой отрасли.
Преимущества
Возможность удаленной работы по всему миру, конкурентоспособная зарплата, оплачиваемый отпуск, позитивная командная культура и поддерживающая среда компании.