DevOps工程师 at Gamium

全职1个月前
Employment Information
职位描述
该职位负责在DevOps框架内设计、实施和维护可扩展的软件解决方案。任职者将运用基础设施即代码(IaC)方法论主导新服务的开发与部署,确保基础设施配置的一致性和可重复性。主要职责包括监控和维护由设备、Docker容器、数据管道及区块链节点组成的生产环境。候选人还需制定并实施完善的备份、可靠性和灾难恢复策略,以保障关键数据服务的安全。此外,他们将规划并执行CI/CD最佳实践,将自动化安全检查融入开发生命周期,以增强系统完整性和合规性。与跨职能工程团队紧密合作,确保公司计算基础设施的安全优化,满足不断发展的安全标准和运营需求。
主要职责
  • 运用基础设施即代码(IaC)开发并部署新服务,实现基础设施配置的自动化管理。
  • 监控并维护生产环境,包括设备、Docker容器、数据管道及区块链节点,确保性能最优化和系统可用性。
  • 设计并实施数据服务的全面备份、可靠性和灾难恢复策略,最大限度减少停机时间和数据丢失。
  • 规划并执行CI/CD流水线,将自动化安全测试和合规性检查整合到开发流程中。
  • 与工程团队协作,保障计算基础设施安全,涵盖网络安全、访问控制和漏洞管理。
  • 管理跨多地区用户账户和权限,确保符合安全策略和合规要求。
  • 通过详细演示制定并向利益相关者及跨部门团队传达技术战略。
  • 在既定技术边界内协调IT生产与交付活动,确保与项目目标和公司标准一致。
  • 将IT举措与业务目标及其他部门对齐,确保技术解决方案无缝融入组织工作流程。
  • 监督项目预算与财务责任,确保IT解决方案以成本效益方式交付,同时保持质量与合规性。
职位要求
  • 具备DevOps实践经验,熟练掌握Terraform、Ansible或CloudFormation等基础设施即代码工具。
  • 精通云原生环境监控与维护,包括Docker、Kubernetes及容器编排平台。
  • 深入了解CI/CD流水线,熟悉Jenkins、GitLab CI或Azure DevOps等工具,具备集成安全自动化经验。
  • 具备分布式系统灾难恢复与业务连续性解决方案的设计与实施背景。
  • 能够为非技术背景的利益相关者制作并讲解技术演示,清晰传达复杂概念与策略。
  • 熟悉云平台(AWS、Azure、GCP)及其安全最佳实践。
  • 熟练掌握Python、Bash、PowerShell等脚本语言及基础设施与应用管理自动化工具。
  • 具备出色的问题解决能力,能在快节奏环境中适应优先级变化与多样化技术挑战。
  • 具备卓越的协作与沟通能力,能与开发、安全分析及运维工程师等跨职能团队高效配合。
  • 能够独立工作并接受有限监督,自主决策技术方案与实施顺序。
  • 了解数据管道架构,熟悉Apache Kafka、Apache Airflow或AWS Glue等工具,具备端到端数据处理能力。
  • 具备分布式系统区块链技术及基础设施管理经验,包括节点部署与维护。
  • 熟悉NIST、ISO 27001等安全框架,能跨分布式环境实施安全策略。
  • 精通AWS IAM、Azure Security Center等云安全工具,具备跨地域身份与访问管理(IAM)经验。
  • 能够分析与优化系统性能,排查生产环境问题,确保服务高可用性。
工作范围

该职位涉及IT项目的全生命周期管理,从规划开发到部署维护。包括定义技术边界、协调跨部门协作、确保与业务目标一致。候选人还需负责项目预算监管、成本分析及资源分配。关键活动是在既定流程与标准框架内交付可靠、安全、可扩展的解决方案,同时符合监管要求。任职者需能适应优先级变化,基于资源与技术约束做出决策,确保IT服务及时有效交付。

权限与决策权

尽管需接受管理层监督与审核,但该职位要求任职者在决策方面拥有较大自主权。包括选择基础设施与应用管理工具、确定复杂任务实施顺序、在无直接监督情况下解决技术难题。候选人需能平衡多方优先级,合理分配资源,确保所有交付成果符合质量、安全与合规标准。需与利益相关者协作,使技术决策与业务目标及组织政策一致,保障IT项目成功执行。

MyJob.one —— 远程工作,真实影响

新内容将持续不断
定期更新

MyJob.one —— 远程工作,真实影响