职位描述
本职位负责平行链基础设施的部署、维护与监控工作。当前系统运行于谷歌云平台(GCP),未来将发展为多云架构。候选人需主导基础设施在多维度的优化工作,包括成本效益、系统可靠性、部署速度及安全协议。需与跨职能团队紧密协作,确保服务目标与技术要求的统一。该岗位还需开发可扩展的工具平台以支持快速工程迭代,同时建立自助服务模型赋能开发团队自主权与资源。此外,需通过主动故障排查保障生产环境可用性,编写完整的基础设施操作文档,并优化告警系统以提升运维可见性与响应能力。
核心职责
- 部署、维护和监控平行链基础设施(当前为GCP,未来可能扩展至多云架构),确保无缝运营与可扩展性
- 定期执行基础设施审计、性能测试与监控,识别成本、可靠性和安全方面的优化机会
- 协同业务与技术团队,就服务可靠性目标、性能基准及技术要求达成一致
- 设计并实施工具平台及基础设施解决方案,助力工程团队快速高效迭代
- 建立自助服务模型,为工程团队提供自主权、资源及便捷的基础设施管理能力
- 主动排查解决基础设施与服务问题,保障生产环境可用性与系统韧性
- 编写并维护基础设施组件的详细文档、标准操作流程及治理框架
- 持续优化告警系统与事件响应流程,提升运营效率并减少停机时间
- 追踪新兴技术与行业最佳实践,推动基础设施管理与自动化创新
- 协同DevOps、安全与合规团队,确保基础设施符合组织标准与监管要求
任职要求
- 具备云环境(GCP/AWS/Azure等)中区块链基础设施(平行链系统)部署管理经验
- 精通基础设施优化原则,包括成本管理、性能调优与安全加固
- 出色的沟通能力,能就基础设施问题与业务/技术团队高效协作
- 具备设计可扩展工具平台的能力,支持快速开发周期与工程效率提升
- 有通过自动化、文档化及友好界面构建自助服务模型的经验
- 擅长复杂系统故障排查、根因分析及修复实施,保障高可用性与韧性
- 熟悉云原生技术、容器化(Docker/Kubernetes)及基础设施即代码(Terraform/Ansible)实践
- 出色的文档编写能力,能制定清晰可执行的基础设施指南与操作流程
- 熟悉监控工具(Prometheus/Grafana/Datadog)及告警系统,追踪基础设施健康指标
- 适应快节奏环境,持续推动基础设施运营的改进与创新
- 优秀的问题解决能力与分析思维,应对基础设施挑战并提升系统可靠性
- 优先条件:熟悉区块链协议、平行链架构及去中心化应用(dApp)生态
- 优先条件:具备多云环境管理及跨云编排策略经验
- 优先条件:深厚的DevOps实践及CI/CD流水线自动化经验
附加资质
- 熟练使用脚本语言(Python/Bash/PowerShell)实现自动化与基础设施管理
- 熟悉云成本优化框架与预算工具,提升资源使用效率
- 了解网络安全协议(TLS/SSL/VPC/防火墙),确保安全部署
- 具备从概念到落地的基建项目管理能力,包括干系人管理与资源调配
- 精通容器编排平台(Kubernetes)及微服务架构的规模化部署
- 有基础设施即代码(IaC)工具使用经验,实现多环境自动化配置
- 优先条件:持有云计算(AWS/Azure/GCP)或DevOps认证(如AWS认证解决方案架构师)
- 优先条件:熟悉区块链开发工具(Substrate/Polkadot/Parity)及智能合约部署框架
- 优先条件:了解CI/CD流水线(Jenkins/GitLab CI/GitHub Actions)的基建自动化测试