직무 설명
주요 책임
- 빅데이터 플랫폼 아키텍처 설계 및 기술 선정에 참여하고, 데이터 처리 파이프라인(Data Pipeline)을 개발 및 유지보수합니다.
- Hadoop/Spark/Flink 등의 프레임워크를 사용하여 데이터 클렌징, ETL, 집계 및 계산 작업을 구현합니다.
- Hive/Presto/ClickHouse와 같은 오프라인 분석 쿼리 시스템을 개발 및 최적화합니다.
- 실시간 데이터 스트림 처리(예: Kafka, Flink, Spark Streaming)를 설계 및 구현합니다.
- 데이터 분석가 및 알고리즘 엔지니어와 협력하여 고품질의 데이터 인터페이스와 서비스를 제공합니다.
- 빅데이터 클러스터 성능 최적화, 리소스 모니터링, 작업 스케줄링 및 예외 처리를 수행합니다.
- 기술 문서 작성, 개발 표준 수립 및 데이터 엔지니어링의 표준화와 자동화를 촉진합니다.
자격 요건
- 컴퓨터 과학, 소프트웨어 공학, 데이터 엔지니어링 또는 관련 분야의 학사 학위 이상.
- Hadoop 생태계(HDFS, YARN, Hive, HBase, Spark, Flink, Kafka 등)에 대한 숙련도.
- 강력한 SQL 능력 및 최소 한 가지 프로그래밍 언어(Python/Java/Scala)에 대한 친숙도.
- ETL 개발 및 데이터 웨어하우스 모델링(차원 모델링, 스타/스노우플레이크 스키마) 경험.
- Linux 환경, Shell 스크립팅 및 데이터 스케줄링 도구(예: Airflow/Azkaban/DolphinScheduler)에 대한 친숙도.
- 클라우드 기반 빅데이터 플랫폼 경험(AWS EMR, GCP BigQuery, Azure Synapse, Aliyun MaxCompute) 우대.
- 강력한 커뮤니케이션, 문제 해결 및 독립적인 프로젝트 실행 능력.
우대 사항
- 실시간 컴퓨팅 또는 로그 수집 시스템(예: Flink + Kafka + Druid) 경험.
- 데이터 보안, 개인정보 보호 및 접근 제어 메커니즘에 대한 지식.
- 머신러닝 데이터 처리 워크플로우 지원 경험.
- 대규모 인터넷 또는 금융 산업 프로젝트 경력.


