更新于 8月14日

GPU分布式計(jì)算架構(gòu)師

10-20萬(wàn)·15薪
  • 武漢江夏區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招5人

職位描述

PCIE P2P、RDMA
職位描述
1、負(fù)責(zé)設(shè)計(jì)、開發(fā)和優(yōu)化單機(jī)/多機(jī)多卡GPU互聯(lián)軟件棧,如集合通信庫(kù)等;
2、負(fù)責(zé)將通信庫(kù)與AI框架進(jìn)行無(wú)縫銜接,實(shí)現(xiàn)多機(jī)多卡并聯(lián)的AI模型推理和訓(xùn)練;
3、負(fù)責(zé)協(xié)同軟硬件團(tuán)隊(duì),定位、分析和解決單機(jī)/多機(jī)多卡互聯(lián)的精度和性能問(wèn)題。

職位要求
1、計(jì)算機(jī)相關(guān)專業(yè),本科及以上學(xué)歷, 5年以上相關(guān)工作經(jīng)驗(yàn);
2、熟悉芯片互聯(lián)和網(wǎng)絡(luò)傳輸編程,有PCIe P2P、RDMA、GPU Direct等相關(guān)開發(fā)經(jīng)驗(yàn);
3、熟悉常用的集合通信原語(yǔ)和集合通信庫(kù),如NCCL 、OpenMPI、Gloo等;
4、熟悉C/C++編程,有良好的編程習(xí)慣和較強(qiáng)的問(wèn)題解決能力;
5、有很好的團(tuán)隊(duì)協(xié)作能力與溝通能力,對(duì)技術(shù)和代碼品質(zhì)有追求;
6、熟悉CUDA或ROCm軟件棧,有類NCCL通信庫(kù)移植、開發(fā)經(jīng)驗(yàn)者優(yōu)先;
7、熟悉AI框架與大規(guī)模分布式訓(xùn)練策略,如FSDP/DeepSpeed/Accelerate/Horovod者優(yōu)先。
工作地點(diǎn):上海,武漢

工作地點(diǎn)

金融港一路

職位發(fā)布者

顧先生/Consultant

昨日活躍
立即溝通
大連凱沃企業(yè)管理顧問(wèn)有限公司
凱沃管理咨詢有限公司,由國(guó)內(nèi)知名企業(yè)經(jīng)理人、擁有多年經(jīng)驗(yàn)的專業(yè)人力資源顧問(wèn)和職業(yè)顧問(wèn)創(chuàng)辦,是一家為客戶提供一體化人力資源解決方案的專業(yè)顧問(wèn)公司。我們致力于和企業(yè)、人才建立起長(zhǎng)期的戰(zhàn)略合作關(guān)系。通過(guò)我們的服務(wù),幫助客戶獲得優(yōu)秀的人才,在市場(chǎng)競(jìng)爭(zhēng)中保持優(yōu)勢(shì)。我們關(guān)注人才供應(yīng)鏈和價(jià)值鏈中人的內(nèi)在需求和價(jià)值體現(xiàn),人才成長(zhǎng)的心理環(huán)境,以及人才的持續(xù)發(fā)展和價(jià)值實(shí)現(xiàn),為企業(yè)提供最合適的人才解決方案,為候選人提供職業(yè)咨詢和專業(yè)的職業(yè)發(fā)展規(guī)劃。
公司主頁(yè)