Job Description
负责公司IT系统的全面运维与管理,确保系统稳定高效运行。主要职责包括监控服务器、网络设备等硬件设施的实时状态,通过日志分析、性能指标追踪等手段实现系统健康度管理。需对各类IT故障进行快速响应,运用专业工具进行根因分析并制定解决方案。同时负责构建和维护系统安全防护体系,定期更新防病毒软件、防火墙规则及入侵检测系统,实施安全补丁管理。通过基准测试、负载分析等方法持续优化系统性能,制定并执行容量规划方案。建立完善的运维文档体系,记录系统配置变更、故障处理流程及安全事件日志,为团队提供知识共享支持。
Key Responsibilities
- 实施24/7 IT系统监控,使用Zabbix/Nagios等工具跟踪服务器、网络设备、存储系统等硬件资源的运行状态,确保系统可用性达到99.9%以上
- 建立故障管理系统,通过事件分类、优先级评估、SLA监控等流程实现问题闭环处理,平均故障恢复时间需控制在30分钟内
- 制定网络安全策略,部署防火墙规则、IDS/IPS设备,定期执行漏洞扫描和渗透测试,确保符合ISO 27001等安全标准
- 开展系统性能调优工作,通过基准测试、资源利用率分析、数据库优化等手段提升系统响应速度和吞吐量
- 维护完整的IT运维知识库,编写系统架构文档、操作手册和故障案例分析报告,确保技术传承和流程标准化
- 与开发团队协作实施DevOps流程,参与系统部署、配置管理和版本控制,确保变更过程可追溯
- 制定并执行IT资产管理计划,跟踪硬件设备生命周期,优化采购和退役流程
- 设计自动化运维方案,开发脚本工具实现配置备份、日志分析、健康检查等重复性工作的自动化
- 建立用户支持体系,处理终端用户的技术咨询,制定自助服务门户和知识库的优化方案
- 定期进行系统审计,确保符合GDPR等数据保护法规,维护合规性文档和审计报告
Job Requirements
- 计算机科学或相关专业本科及以上学历,持有CISSP、CISP、PMP等专业认证者优先
- 3年以上IT运维经验,具备大型分布式系统管理经验,熟悉Linux/Windows服务器架构
- 精通网络协议(TCP/IP、BGP、OSPF等),熟悉网络设备配置管理(Cisco、H3C等品牌)
- 掌握主流安全工具(防火墙、IDS/IPS、SIEM系统)的部署与调优,具备安全事件应急响应能力
- 熟悉数据库管理系统(MySQL、Oracle、SQL Server等),能够进行数据库性能调优和备份恢复
- 具备脚本开发能力(Python、Shell、PowerShell等),能够编写自动化运维工具和监控脚本
- 熟悉ITIL服务管理框架,具备服务级别协议(SLA)管理和变更管理流程实施经验
- 具备良好的沟通协调能力,能够与跨部门团队协作推进IT项目实施
- 英语读写能力良好,能够阅读英文技术文档和参与国际技术交流
- 持有CompTIA Security+、CEH等安全认证,熟悉等保2.0相关要求
- 具备云平台管理经验(AWS、Azure、阿里云等),熟悉容器化技术(Docker、Kubernetes)
- 熟悉IT服务管理工具(ServiceNow、Jira、禅道等),能够进行工单管理和服务流程优化
- 具备数据备份与灾难恢复方案设计能力,熟悉RAID、SAN/NAS等存储技术
- 熟悉系统监控工具(Prometheus、Zabbix、SolarWinds等),能够进行指标采集和可视化分析
- 具备良好的问题解决能力,能够独立分析复杂系统故障并制定解决方案