职位描述
本岗位负责公司业务系统的运维工作,确保系统稳定高效运行。候选人需与业务团队紧密协作,保持高效沟通并建立良好合作关系。重点负责中间件运维管理,提升基础组件与平台的服务化能力及稳定性。同时参与运维平台的规划建设与开发,建立并完善标准化运维服务体系。需处理线上重大问题排查、紧急事故处理及后续事故分析与优化工作。通过SLA管理、多活容灾、故障演练、监控告警及容量管理持续推动业务质量提升。负责业务服务器架构的高可用设计与性能优化,保障业务高效可靠迭代。该职位对维持公司卓越运营、确保所有系统平稳高效运行至关重要。
核心职责
- 负责公司业务运维,提升业务稳定性与工程效能,与业务方保持高效沟通并建立良好合作关系
- 负责中间件运维,增强基础组件与平台的服务化能力及稳定性
- 负责运维平台的规划建设与开发,建立完善标准化运维服务体系
- 负责线上重大问题排查、紧急事故处理及后续事故分析与优化
- 持续推动业务质量提升:SLA管理、多活容灾、故障演练、监控告警、容量管理
- 业务服务器架构的高可用设计与性能优化,保障业务高效可靠迭代
任职要求
- 精通系统运维,重点关注业务稳定性与工程效能提升
- 具备中间件管理经验,能提升核心组件与平台的服务化能力及稳定性
- 熟悉运维平台开发,包括服务体系的规划建设与标准化
- 具备线上问题排查、应急事故处理及事后分析优化能力
- 擅长业务质量提升,涵盖SLA管理、容灾策略、故障演练、监控告警及容量规划
- 精通服务器架构高可用设计及性能优化,确保业务迭代可靠性
- 出色的跨部门协作能力,能与各团队高效配合
- 具备复杂运维问题的系统性解决与分析能力
- 能在动态环境中合理分配优先级,管理多重任务
- 深入理解IT服务管理框架及行业最佳实践
- 熟悉云计算平台及自动化运维工具
- 掌握安全协议与合规标准,保障系统完整性及数据安全
- 擅长流程文档编写及系统性能改进报告
- 熟练使用Python/Bash等脚本语言实现自动化运维
- 熟悉Prometheus/Grafana等监控告警工具
- 掌握容量规划方法论,确保业务可持续扩展
- 能主导实施容灾与业务连续性计划
- 对细节高度关注,坚持高标准服务质量
- 具有DevOps实践经验,能优化研发运维流程
- 适应技术演进,持续优化运维体系