职位描述
作为高级DevOps工程师,您将负责设计、实施和维护支持我们7×24小时运营的技术基础设施。该职位需要创建稳健的架构和文档,确保所有服务器环境具有持续的可靠性、可扩展性、安全性和性能表现。您将与开发团队紧密合作,优化工作流程、实现流程自动化,并建立系统管理的最佳实践。该职位还涉及监控系统健康状况、排查故障问题,并持续改进基础设施以满足不断变化的业务需求。
核心职责
- 开发和维护技术基础设施,包括硬件配置、系统软件组件和基于云的解决方案,以支持高可用性和高性能
- 设计并实施可扩展、安全可靠的服务器环境架构,确保符合组织目标和行业标准
- 优化持续集成/持续交付(CI/CD)管道、测试框架和发布验证流程,最大限度减少停机时间,确保从开发到生产的平稳过渡
- 监控系统性能,定期进行审计,并实施安全措施以保护基础设施和数据完整性
- 与跨职能团队协作解决技术难题,优化工作流程,提供满足业务需求的解决方案
- 持续关注新兴DevOps工具、技术和方法论,推动创新并提高运营效率
- 编写系统配置、流程和故障排除步骤的文档,确保团队间的知识共享和可维护性
- 在基础设施规划、容量管理和灾难恢复策略方面提供技术领导
- 支持事件管理和根本原因分析,及时识别和解决系统故障
- 确保所有环境符合内部政策、法规要求和安全最佳实践
任职要求
- 具备5年以上DevOps工程师经验,拥有系统管理、自动化和云基础设施管理的实战经验
- 精通设计和实施可扩展、安全且高性能的7×24小时服务器环境架构
- 熟练掌握CI/CD工具(如Jenkins、GitLab CI、CircleCI)和容器化技术(如Docker、Kubernetes、Helm)
- 具有基础设施即代码(IaC)框架(如Terraform、Ansible或Puppet)的实践经验,用于自动化配置和管理
- 深入理解云平台(AWS、Azure、GCP)和混合云环境,包括网络、存储和安全配置
- 熟悉监控和可观测性工具(如Prometheus、Grafana、ELK技术栈),用于实时系统性能跟踪和告警
- 具备编写系统架构、部署流程和故障排除程序文档的能力
- 强大的问题解决能力,专注于优化系统性能、降低延迟并确保高可用性
- 优秀的沟通和协作能力,能与开发、安全和运维团队高效合作
- 精通脚本语言(如Python、Bash、PowerShell),熟悉DevOps自动化工具(如Jenkins、Ansible、Terraform)
- 具有版本控制系统(如Git)和敏捷开发方法的实践经验,用于迭代式项目交付
- 了解安全最佳实践,包括加密、访问控制和合规审计,以保护基础设施和数据
- 能够指导初级DevOps工程师,同时为团队目标和组织目标做出贡献
- 深刻理解系统可扩展性、负载均衡和灾难恢复策略,确保业务连续性
- 具有容器编排、微服务架构和分布式系统的实践经验,用于现代应用部署
- 精通云成本优化技术和资源管理,确保基础设施的高效利用
- 能够分析系统日志、性能指标和错误报告,主动识别和解决问题
- 了解API管理、服务网格技术和网络安全协议,实现安全的系统集成
- 熟悉DevOps工具链,包括代码仓库、构建系统和部署自动化,以简化工作流程