职位描述
作为高级DevOps工程师,您将主导云基础设施的设计、实施与维护工作,确保系统具备可扩展性及安全性。通过开发自动化脚本优化开发流程,依托持续集成与部署实践提升系统可靠性及软件交付效率。您需构建并管理数据看板与指标系统,为基础设施性能、系统健康度及运营效率提供可落地的洞察。同时建立覆盖分布式系统的监控告警与日志体系,保障问题及时发现与解决。此外,您将牵头基础设施代码的定期优化,识别改进机会并实施最佳实践。职责还包括追踪新兴工具、云服务及行业趋势,推动技术创新以保持运营竞争力。
核心职责
- 基于AWS/Azure/GCP设计实施云基础设施解决方案,确保可扩展性、可靠性及安全性
- 使用Ansible/Terraform/Jenkins等工具开发维护CI/CD流水线、基础设施编排及系统自动化脚本
- 通过Grafana/Prometheus/Kibana等平台构建集中式监控看板,追踪系统性能与基础设施状态
- 建立端到端的监控告警与日志框架,实现系统行为与运营异常的实时可视化
- 协同开发团队实施代码审查、配置管理、部署策略等DevOps最佳实践
- 定期执行基础设施代码审计,识别技术债务、安全漏洞及性能瓶颈
- 主导生产事件响应与根因分析,制定预防性措施避免问题复发
- 持续跟进DevOps工具链、云技术及行业标准的最新发展
- 为初级工程师及开发团队提供DevOps方法论、自动化实践及云原生技术指导
- 通过标准化流程与工具确保符合企业架构、信息安全政策及工程战略
任职要求
- 5年以上DevOps工程师经验,具备云基础设施设计与自动化实施能力
- 精通AWS/Azure/GCP云平台及Docker/Kubernetes容器化技术
- 熟练掌握Python/Bash/PowerShell等脚本语言及Ansible/Terraform/Puppet等配置管理工具
- 具有Jenkins/GitLab CI/CircleCI等CI/CD流水线建设经验
- 熟悉Prometheus/Grafana/ELK Stack等可观测性工具
- 能设计符合GDPR/ISO 27001等标准的安全基础设施方案
- 优秀的问题解决能力,有复杂系统调优经验
- 具备跨部门协作能力,能与开发/安全/运维团队高效沟通
- 持有AWS/Azure/GCP DevOps工程师认证者优先
- 熟悉基础设施即代码(IaC)实践及Git版本控制系统
- 具备团队指导能力,能推动持续改进文化
- 了解IAM/VPC/加密等云安全框架
- 具有自动化测试及质量保障流程实施经验
- 深入理解系统架构设计原则与高可用方案
- 擅长编写技术文档进行知识传承
- 熟悉PagerDuty/Opsgenie等事件管理系统
- 掌握云资源成本优化策略
- 能设计灾备与业务连续性方案
- 具备指标分析、日志挖掘及容量规划能力