About Me
资深DevOps工程师,10年+运维及SRE经验,精通Golang/Java/Python,主导设计SLA平台、全链路探测、CMDB、监控平台及根因预测系统,擅长Prometheus/Kafka/ClickHouse等技术,具备全栈开发能力,专注稳定性、自动化及多AZ容灾方案。
Experience
DevOps Engineer
未知公司 - - Now
职位: DevOps Engineer | 时间段: 未知 | 工作内容: 负责千帆平台的SLA、全链路探测、CMDB、监控平台和根因预测的开发与实施。具体包括:调研接入层数据存储机制,开发数据收集、加工处理、告警和持久化存储功能;开发全链路探测的探测、数据持久化、告警和可视化接口;梳理运维资源模型,实现资源自动发现和上报机制;调研并实现基于Prometheus的监控平台;开发根因分析功能,自动化定位告警根因。
SRE
未知公司 - - Now
职位: SRE | 时间段: 未知 | 工作内容: 主导AZ逃生演练支撑与平台改造项目,协助核心服务实现跨可用区扩容、调度与故障容灾能力。具体包括:指导服务完成多AZ部署和中间件逃生改造;协助业务梳理依赖链路与故障注入路径;改造自建Nginx集群,实现AZ维度的服务部署和故障节点摘除;输出服务可用性演练指南与总结。
DevOps Engineer
未知公司 - - Now
职位: DevOps Engineer | 时间段: 未知 | 工作内容: 负责ToG部署工具(框架)项目开发,设计项目分层架构,开发部署工具各阶段的部署功能,包括运行时检测、容器编排、数据初始化、资源调度等。借鉴其他中间件的思想及设计模式为业务线提供可扩展点,并对交付人员进行定期培训。