职位描述
我们正在寻找一位经验丰富的分布式深度学习工程师,来推动前沿的去中心化人工智能与机器学习项目。理想的候选人将在开发创新解决方案中发挥关键作用,利用先进的分布式计算技术解决AI和ML领域的复杂问题。
核心职责
- 使用PyTorch、TensorFlow、Ray等分布式深度学习框架设计与实现大规模模型训练
- 管理与优化模型训练及推理流程,确保高性能与高效率
- 使用Docker容器化深度学习应用,并通过Kubernetes和Kubeflow进行编排
- 在AWS、Google Cloud、Azure等主流云平台部署与管理深度学习工作负载
- 应用模型压缩与推理加速技术优化性能
- 实现流批一体数据推理技术以满足实时处理需求
- 跨部门协作制定并执行分布式计算与深度学习解决方案的技术策略
任职要求
- 丰富的深度学习框架(PyTorch、TensorFlow等)使用及模型训练/优化经验
- 精通容器化技术(Docker)与编排技术(Kubernetes、Kubeflow)
- 具备云计算平台(AWS、Google Cloud、Azure)实战经验
- 有CUDA编程与多GPU通信优化经验者优先
- 了解流批一体数据处理技术
- 具备团队协作能力,能参与技术战略制定
- 出色的解决问题能力,能胜任前沿AI/ML项目
优先条件
- 熟悉Ray或其他分布式计算框架
- 有去中心化AI/ML系统开发背景
- 在相关领域有开源项目贡献或学术发表