职位描述
岗位职责:
1、参与AI平台后端基于k8s的多项功能的设计、研发、调试、测试工作;
2、参与AI平台本身各项功能以及用户训练任务的性能监控、分析、调优(以及可能的重构)工作;
3、 将平台与框架结合进行分析,保证平台中各种不同框架下的不同训练任务的稳定、高效运行,并参与框架本身的改进工作;
4、 能够积极学习新知识,积极参与团队协作,共同完成多项功能的研发。
任职要求:
1、 熟悉python、golang、c++的实际开发,并高度熟练使用其中至少一门语言;
2、熟练掌握k8s的原理、技术、使用、开发,有高度相关的开发经验;
3、具有扎实的操作系统、计算机系统结构、网络原理的知识;
4、 能准确定位系统的性能问题,做出针对性改进,并给出分析报告;
5、具有扎实的代码功底和实战能力,对代码的性能、扩展性、可读性有较高的要求,对自己写的代码高度负责,保证核心功能模块配套有一个他人可以一键运行的主要场景下的测试代码;
6、 具备独立解决复杂以及未知的新问题的能力,能够在较大压力下较好完成任务;
7、 具有良好的工作文档习惯,及时撰写更新工作流程及技术文档。
加分项:
1、对k8s的底层和各项技术极其了解,有极其深入的开发经验;
2、非常熟悉InfiniBand/RDMA技术;
3、精通平台、系统、程序的性能分析和改进方法;
4、非常熟悉pytorch等分布式训练框架的优化、瓶颈监控与性能分析、改进;
5、非常熟悉linux内核。
工作地:北京/上海/深圳