职位描述
本职位负责维护和优化公司基础设施,确保高可用性与性能表现。工作内容包括主动监控、事件响应,以及运用Kubernetes等现代技术实施可扩展解决方案。
核心职责
- 维护并保障基础设施可用性与系统性能
- 优化系统性能及扩展能力
- 及时响应事故并识别潜在问题
- 部署和运维Kubernetes集群
- 监控系统健康状况并实施预防性措施
- 协同开发团队优化部署流程
- 编写系统配置与运维流程文档
任职要求
- 计算机科学或相关专业本科及以上学历
- 3年以上系统运维或DevOps相关经验
- 精通Kubernetes及容器编排技术
- 具备云平台(AWS/Azure/GCP)使用经验
- 熟练使用脚本语言(Bash/Python等)
- 理解网络基础概念及安全最佳实践
- 出色的问题分析与故障排除能力
- 适应快节奏的团队协作环境
优先条件
- 持有Kubernetes或云平台相关认证
- 具备基础设施即代码(Terraform/Ansible)经验
- 熟悉CI/CD流水线及自动化工具
- 了解监控工具(Prometheus/Grafana)