职位描述
作为运维工程师,您将负责设计、实施和维护可扩展的安全基础设施解决方案,在保障系统性能与可靠性方面发挥关键作用。该职位需要具备亚马逊AWS和阿里云等云计算平台的实战经验,要求您熟练管理VPC、CDN、S3、ECS、EKS、ELB、MySQL、Redis及ElastiSearch等复杂云资源,同时协同跨职能团队确保技术战略与业务目标对齐。工作内容包括持续优化运维流程、自动化重复任务、主动监控系统健康状态,以预防服务中断并保障无缝用户体验。
核心职责
- 主导亚马逊AWS与阿里云基础设施资源的创建与管理,包括VPC网络设计与配置、CDN性能优化、S3对象存储管理等。实施容器编排框架(ECS/EKS),为可扩展应用确保高效的资源分配。
- 协同开发团队优化代码构建流程,建立高效的CI/CD管道,实现与容器编排工具的无缝集成。运用Docker、Kubernetes及编排平台开发维护容器自动化运维能力,减少人工干预并提升部署效率。
- 设计关键系统的高可用解决方案,确保故障容错与最小化停机时间。通过AWS CloudTrail、阿里云安全中心及SIEM平台建立全面的安全监控机制。制定并执行故障恢复方案,包括灾难恢复计划与定期应急演练以验证系统韧性。
- 使用Prometheus、Grafana和ELK等技术栈实时监控系统性能与安全指标。分析日志与告警信息,识别潜在问题并实施主动防御措施。维护基础设施配置、安全协议及操作流程的文档,确保知识共享并符合行业标准。
- 支持事件管理与故障排查,协调值班团队处理生产环境中的紧急问题。开展根因分析定位系统漏洞,实施长效解决方案。持续跟踪新兴云技术与行业最佳实践,提升运维能力。
任职要求
- 3年以上云运维实战经验,精通亚马逊AWS与阿里云平台。具备复杂云架构(含网络/存储/数据库方案)的设计与管理能力。
- 熟练掌握容器化技术(Docker/Kubernetes)与CI/CD管道开发。具有Terraform、Ansible、Jenkins等自动化工具使用经验,能优化基础设施配置与部署流程。
- 深刻理解高可用、灾备及安全最佳实践。熟悉AWS Auto Scaling、阿里云负载均衡及SIEM等安全监控平台,确保系统可靠性与数据保护。
- 出色的复杂系统问题诊断能力,善于通过数据分析定位性能瓶颈并实施优化方案。
- 能在快节奏环境中独立工作,具备优秀的跨团队沟通能力,能规范记录技术流程并清晰呈现解决方案。
- 持有AWS认证解决方案架构师、阿里云ACA或CKA等容器编排认证者优先。熟悉DevOps实践及基础设施即代码(IaC)方法论者更佳。