个人信息
- 李鑫 男 1997
- GitHub:hwdef
- 博客:www.hwdef.org
- 教育经历:本科 2016-2020 牡丹江师范学院 计算机科学与技术
联系方式
工作经历
- 奇虎 360(2023.4 至今)服务端开发资深工程师
- AI开发平台,集群侧研发
- 独自负责集群调度组件的功能研发和日常维护
- 排查、解决容器化后,分布式训练遇到的可用性和性能问题
- 机器学习分布式训练优化
- 基于 Megatron-LM ,优化效率分析、效果分析流程
- 深度适配 sharp,nccl 等 nvidia 相关技术,提升训练效率
- AI开发平台,集群侧研发
- 博云(2020.7-2023.4)后端研发工程师
- 博云算力平台研发
- 博云自研 CNI 研发
- 博云(2019.7-2020.7)后端研发实习生
- 开源社区贡献
- 学习容器、Kubernetes 等相关知识
- 调研开源社区中的相关组件,例如 kubemark 、harbor 和 etcd 等
项目经历
分布式训练框架
基于Megatron-LM的分布式训练框架,着重优化使用体验和训练速度。
基于 Kubernetes 的计算平台
项目介绍:基于 Kubernetes 和 Volcano 的容器计算平台,为 AI、HPC 应用上云而生。支持 Linux 和 Windows server 操作系统,在数十台节点上运行几千核的计算任务,并且有作业排队、GPU 分割等功能。
主要任务:我负责底层组件的设计与研发,并为环境遇到的底层相关的问题给出解决方案。具体的,我负责为计算平台适配、增强 volcano 和 gpu-manager 项目,并且处理因 cpu、磁盘、网络导致计算作业效率降低的问题。
开源社区建设:我积极与 Volcano 社区合作,将众多 bug 和 feature 反馈回社区。为 Volcano 带来诸多重要功能,例如:任务的顺序启动,mpi 插件,创建 webhook 的逻辑优化。我参与设计、开发了 JobFlow 项目,此项目可作为 argo workflow 的轻量级替代,在我与社区的沟通下,将此项目捐赠给了 Volcano 社区。
Kubernetes CNI
项目介绍:此项目为公司内部自研 CNI,本人负责 CNI 控制面的设计与研发。
主要任务:我参与实现了 CNI 资源全部 CRD 化,实现了 Pod 固定 IP,Pod 双栈网络支持,Pod 多 IP 支持,CNI 平滑升级等功能。此外,我独立设计并实现了 CNI 的 exporter,通过将 CNI 控制面和 OVSDB 导出,搭配 Prometheus 和 grafana,实现了对 CNI 控制面和数据面的监控。
开源社区荣誉
Volcano approver
Kubernetes/Kubernetes/hack reviewer
Kubernetes/dashboard/i18n/zh-Hans approver
开源项目
密码管理工具:KukeyForConsole
开源项目 Kukey 的命令行版本,使用 c# 编写,支持 windows/Linux/mac OS,数据只存储在本地,降低因网络造成的安全风险,AES-256-ECB 对称加密,数据支持跨平台同步。
专业技能
编程语言:Go、Python、c#
工具:Git/Kubernetes/Docker/Linux
英语水平:4级
技能认证:CKAD