崗位概述:
負(fù)責(zé)GPU服務(wù)器、IB/RoCE網(wǎng)絡(luò)、Linux、Docker 和 Kubernetes 的運(yùn)維工作,同時(shí)支持 AI 相關(guān)系統(tǒng)部署。候選人需對(duì) AI 訓(xùn)練與推理感興趣,有部署大模型經(jīng)驗(yàn)和基礎(chǔ)代碼能力。
崗位職責(zé):
?管理和監(jiān)控服務(wù)器、網(wǎng)絡(luò),確保系統(tǒng)穩(wěn)定。
?維護(hù) Linux 系統(tǒng),支持 GPU 和 AI 環(huán)境配置。
?部署和管理 Docker 容器及 Kubernetes 集群。
?協(xié)助部署大模型,優(yōu)化訓(xùn)練與推理流程。
?編寫(xiě)簡(jiǎn)單腳本,自動(dòng)化運(yùn)維任務(wù)。
任職要求:
?熟悉 Linux、Docker 和基礎(chǔ)網(wǎng)絡(luò)操作,對(duì) Kubernetes 有初步了解。
?對(duì) AI 訓(xùn)練推理感興趣,了解大模型技術(shù)設(shè)施相關(guān)只是, 如GPU型號(hào)、RDMA網(wǎng)絡(luò)、分布式存儲(chǔ)等
?有代碼基礎(chǔ),如Python 、shell腳本,能夠使用ansible進(jìn)行l(wèi)inux運(yùn)維。
?善于學(xué)習(xí),具備團(tuán)隊(duì)合作精神。
?加分項(xiàng):自行部署過(guò)大模型,如ollama、vllm、sglang等。
團(tuán)隊(duì)介紹
加入我們,深入?yún)⑴cAI計(jì)算技術(shù)的創(chuàng)新,構(gòu)建行業(yè)領(lǐng)先的AI算力基礎(chǔ)設(shè)施。通過(guò)大規(guī)模計(jì)算集群、優(yōu)化異構(gòu)資源調(diào)度與高性能網(wǎng)絡(luò)等核心能力,支持大模型的開(kāi)發(fā)、訓(xùn)練與推理,推動(dòng)AI和云計(jì)算的深度融合與持續(xù)發(fā)展!