Job Description:
职位描述:
负责公司大数据平台的开发、优化与维护,参与数据采集、处理、建模及分析系统的设计与实现,支撑业务决策与智能化应用。
主要职责:
1.参与大数据平台架构设计与技术选型,开发并维护数据处理管道(Data Pipeline)。
2.使用 Hadoop / Spark / Flink 等框架实现数据清洗、ETL、聚合与计算任务。
3.开发与优化 Hive / Presto / ClickHouse 等离线分析查询系统。
4.设计并实现实时数据流处理(Kafka、Flink、Spark Streaming 等)。
5.与数据分析师、算法工程师协作,提供高质量的数据接口与服务。
6.负责大数据集群性能调优、资源监控、任务调度与异常处理。
7.编写技术文档、制定开发规范,推动数据工程的标准化与自动化。
Job Requirements:
任职要求:
1.本科及以上学历,计算机科学、软件工程、数据工程等相关专业。
2.熟悉 Hadoop 生态(HDFS、YARN、Hive、HBase、Spark、Flink、Kafka 等)。
3.精通 SQL,熟悉 Python / Java / Scala 等至少一种语言。
4.具备 ETL 开发经验,熟悉数据仓库建模(维度建模、星型/雪花模型等)。
5.熟悉 Linux 环境、Shell 脚本、常见数据调度工具(如 Airflow / Azkaban / DolphinScheduler)。
6.有云端大数据平台经验(如 AWS EMR、GCP BigQuery、Azure Synapse、Aliyun MaxCompute)优先。
7.具备良好的沟通能力、问题分析与解决能力,能够独立承担项目任务。
加分项:
•有实时计算、日志采集系统(如 Flink + Kafka + Druid)经验;
•熟悉数据安全、隐私保护及访问控制机制;
•有机器学习数据处理流程支持经验;
•有大型互联网或金融行业项目经验。
Benefits:
全球远程,有吸引力的薪酬、年假、良好的团队氛围和公司文化


