职位描述
作为高级云运维开发工程师,您将负责设计、部署和维护可扩展的云基础设施解决方案。该职位需运用Kubernetes等容器技术及编排系统,确保应用生命周期的高效管理。您需跨团队协作实施符合行业最佳实践的运维方案,持续优化系统性能与可靠性。核心职责包括:使用Grafana和Prometheus等工具进行大规模基础设施监控;执行分布式应用的容量与负载测试;分析性能趋势以预判需求变化。理想候选人还需从硬件、操作系统到网络配置及应用逻辑等多层部署中,识别并解决可用性与性能问题。
核心职责
- 基于容器及编排系统(如Kubernetes)设计云原生架构,确保高可用性、可扩展性和容错能力
- 管理AWS/Azure/GCP混合云环境,包括基础设施配置、安全合规与配置管理
- 构建自动化CI/CD流水线,实现微服务与分布式应用的零停机部署
- 执行全链路性能测试、基准评估与容量规划,确保系统满足SLA要求
- 通过可观测性工具实时监控基础设施健康状态,建立预警机制
- 协同开发团队实现可扩展应用设计,全链路排查生产环境问题
- 编写系统架构文档、运维手册及性能分析报告
- 跟踪云技术与DevOps前沿动态,持续提升基础设施效率
- 主导重大故障的应急响应与根因分析,制定预防措施
- 配合安全团队落实数据保护法规与云安全最佳实践
任职要求
- 5年以上云基础设施运维及DevOps实战经验
- 精通Kubernetes等编排系统及AWS/Azure/GCP云平台
- 深刻理解微服务架构、API网关及分布式系统设计原则
- 熟练使用Terraform/Ansible/CloudFormation等基础设施即代码工具
- 具有Grafana/Prometheus/ELK等大规模监控方案实施经验
- 掌握云环境下的网络协议、负载均衡与DNS配置
- 具备跨基础设施层的性能指标分析与优化能力
- 丰富的复杂云基础设施问题排查经验
- 精通Python/Bash等脚本语言及云原生自动化工具链
- 优秀的跨团队沟通协调能力
- 优先条件:AWS认证DevOps工程师或同级云认证
- 优先条件:熟悉无服务器架构及云成本优化策略
- 优先条件:了解SOC2/GDPR等安全合规框架
- 优先条件:具备云基础设施团队管理及新人指导经验