跳到文章

Resume

个人信息

  • 李鑫 男 1997
  • GitHub:hwdef
  • 博客:www.hwdef.org
  • 教育经历:本科 2016-2020 牡丹江师范学院 计算机科学与技术

联系方式

工作经历

  • 奇虎 360(2023.4 至今)服务端开发资深工程师
    • AI开发平台,集群侧研发
      • 独自负责集群调度组件的功能研发和日常维护
      • 排查、解决容器化后,分布式训练遇到的可用性和性能问题
    • 机器学习分布式训练优化
      • 基于 Megatron-LM ,优化效率分析、效果分析流程
      • 深度适配 sharp,nccl 等 nvidia 相关技术,提升训练效率
  • 博云(2020.7-2023.4)后端研发工程师
    • 博云算力平台研发
    • 博云自研 CNI 研发
  • 博云(2019.7-2020.7)后端研发实习生
    • 开源社区贡献
    • 学习容器、Kubernetes 等相关知识
    • 调研开源社区中的相关组件,例如 kubemark 、harbor 和 etcd 等

项目经历

分布式训练框架

基于Megatron-LM的分布式训练框架,着重优化使用体验和训练速度。

基于 Kubernetes 的计算平台

项目介绍:基于 Kubernetes 和 Volcano 的容器计算平台,为 AI、HPC 应用上云而生。支持 Linux 和 Windows server 操作系统,在数十台节点上运行几千核的计算任务,并且有作业排队、GPU 分割等功能。

主要任务:我负责底层组件的设计与研发,并为环境遇到的底层相关的问题给出解决方案。具体的,我负责为计算平台适配、增强 volcano 和 gpu-manager 项目,并且处理因 cpu、磁盘、网络导致计算作业效率降低的问题。

开源社区建设:我积极与 Volcano 社区合作,将众多 bug 和 feature 反馈回社区。为 Volcano 带来诸多重要功能,例如:任务的顺序启动,mpi 插件,创建 webhook 的逻辑优化。我参与设计、开发了 JobFlow 项目,此项目可作为 argo workflow 的轻量级替代,在我与社区的沟通下,将此项目捐赠给了 Volcano 社区。

Kubernetes CNI

项目介绍:此项目为公司内部自研 CNI,本人负责 CNI 控制面的设计与研发。

主要任务:我参与实现了 CNI 资源全部 CRD 化,实现了 Pod 固定 IP,Pod 双栈网络支持,Pod 多 IP 支持,CNI 平滑升级等功能。此外,我独立设计并实现了 CNI 的 exporter,通过将 CNI 控制面和 OVSDB 导出,搭配 Prometheus 和 grafana,实现了对 CNI 控制面和数据面的监控。

开源社区荣誉

Volcano approver

Kubernetes/Kubernetes/hack reviewer

Kubernetes/dashboard/i18n/zh-Hans approver

开源项目

密码管理工具:KukeyForConsole

开源项目 Kukey 的命令行版本,使用 c# 编写,支持 windows/Linux/mac OS,数据只存储在本地,降低因网络造成的安全风险,AES-256-ECB 对称加密,数据支持跨平台同步。

专业技能

编程语言:Go、Python、c#

工具:Git/Kubernetes/Docker/Linux

英语水平:4级

技能认证:CKAD