更新于 2月24日

算力系統(tǒng)設(shè)施主管

2.2-3萬(wàn)
  • 北京朝陽(yáng)區(qū)
  • 10年以上
  • 本科
  • 全職
  • 招1人

職位描述

LinuxIT系統(tǒng)CCIEHCIEIB組網(wǎng)經(jīng)驗(yàn)的專家

崗位工作概述:


1. 負(fù)責(zé)設(shè)計(jì)、部署、優(yōu)化及維護(hù)高效、可擴(kuò)展的AI算力IT系統(tǒng)設(shè)施,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)及安全設(shè)備等;


2. 確保用戶AI研發(fā)、模型訓(xùn)練及推理任務(wù)的順利進(jìn)行;


深入?yún)⑴c從需求分析、架構(gòu)設(shè)計(jì)、資源調(diào)度、性能優(yōu)化到故障排查的全過(guò)程,為公司的AI算力業(yè)務(wù)發(fā)展提供堅(jiān)實(shí)的算力支撐。
工作經(jīng)驗(yàn):

1.
具備10年以上AI算力系統(tǒng)或高性能計(jì)算(HPC)領(lǐng)域的工作經(jīng)驗(yàn),有成功部署和優(yōu)化大規(guī)模AI計(jì)算集群的經(jīng)驗(yàn)者優(yōu)先;


2.
在大型互聯(lián)網(wǎng)公司、科研機(jī)構(gòu)或AI初創(chuàng)企業(yè)從事AI算力系統(tǒng)建設(shè)與維護(hù)的經(jīng)驗(yàn);


有主導(dǎo)或參與過(guò)至少兩個(gè)大型AI算力集群的設(shè)計(jì)、部署與優(yōu)化項(xiàng)目的優(yōu)先考慮。
教育水平要求:

1. 計(jì)算機(jī)科學(xué)、信息技術(shù)、軟件工程或相關(guān)專業(yè)本科及以上學(xué)歷;


碩士及以上學(xué)歷,或在相關(guān)領(lǐng)域有深入研究或突出貢獻(xiàn)者,將優(yōu)先考慮。
崗位技能要求:

1. 架構(gòu)設(shè)計(jì):能夠設(shè)計(jì)高可用、可擴(kuò)展的AI算力架構(gòu),包括硬件選型、網(wǎng)絡(luò)規(guī)劃、存儲(chǔ)設(shè)計(jì)等;


2. 資源調(diào)度與優(yōu)化:熟悉Kubernetes、Docker等容器化技術(shù),以及YARN等資源調(diào)度系統(tǒng),能夠優(yōu)化資源利用率,提升計(jì)算效率;


3. 性能調(diào)優(yōu):具備深入的系統(tǒng)性能調(diào)優(yōu)能力,包括CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)等各方面的優(yōu)化;


4. 自動(dòng)化運(yùn)維:熟悉Ansible、Puppet等自動(dòng)化運(yùn)維工具,能夠編寫(xiě)自動(dòng)化腳本提升運(yùn)維效率;


5. 故障排查與應(yīng)急響應(yīng):能夠快速響應(yīng)系統(tǒng)故障,準(zhǔn)確排查問(wèn)題根源,并制定有效的解決方案。
工作職責(zé)與任務(wù):

1.
系統(tǒng)規(guī)劃與設(shè)計(jì):根據(jù)公司業(yè)務(wù)需求,規(guī)劃并設(shè)計(jì)AI算力系統(tǒng)的整體架構(gòu),包括硬件選型、網(wǎng)絡(luò)布局、存儲(chǔ)策略等。


2.
部署與集成:負(fù)責(zé)AI算力集群的部署、配置與集成,確保系統(tǒng)穩(wěn)定運(yùn)行。


3.
性能優(yōu)化:對(duì)AI算力任務(wù)進(jìn)行性能分析,提出并實(shí)施優(yōu)化方案,提升計(jì)算效率。


4.
運(yùn)維管理:負(fù)責(zé)日常運(yùn)維工作,包括系統(tǒng)監(jiān)控、日志分析、故障排查與解決等。


5.
技術(shù)創(chuàng)新與研究:跟蹤AI算力領(lǐng)域的最新技術(shù)動(dòng)態(tài),探索并引入新技術(shù),提升系統(tǒng)競(jìng)爭(zhēng)力。


團(tuán)隊(duì)建設(shè)與培訓(xùn):指導(dǎo)并培養(yǎng)初級(jí)工程師,提升團(tuán)隊(duì)整體技術(shù)水平。
其他素質(zhì)要求:

1. 具備自驅(qū)力:具備工作主動(dòng)性和自我驅(qū)動(dòng)學(xué)習(xí)能力;


2.
問(wèn)題解決:具備較強(qiáng)的問(wèn)題分析和解決能力,能夠獨(dú)立或協(xié)助解決復(fù)雜的技術(shù)問(wèn)題;


溝通能力:良好的溝通能力和團(tuán)隊(duì)合作精神,能夠與不同部門(mén)有效協(xié)作,推動(dòng)項(xiàng)目進(jìn)展。




工作地點(diǎn)

東進(jìn)國(guó)際中心A座906

職位發(fā)布者

鐘女士/人事經(jīng)理

昨日活躍
立即溝通
嘉合通盈(北京)科技產(chǎn)業(yè)發(fā)展有限公司
嘉合通盈(北京)科技產(chǎn)業(yè)發(fā)展有限公司是國(guó)內(nèi)領(lǐng)先的大數(shù)據(jù)、AIDC算力運(yùn)營(yíng)服務(wù)商。企業(yè)以“助力數(shù)字強(qiáng)國(guó),算力賦能產(chǎn)業(yè)”為使命,構(gòu)建國(guó)內(nèi)領(lǐng)先的智能運(yùn)算環(huán)境,形成集算力資源、應(yīng)用資源、服務(wù)資源和人才資源于一體的超算云服務(wù)平臺(tái)。公司核心團(tuán)隊(duì)具備豐富的AIDC行業(yè)經(jīng)驗(yàn),已構(gòu)建一套企業(yè)獨(dú)有的項(xiàng)目開(kāi)發(fā)、建設(shè)、運(yùn)營(yíng)、銷售、融資完整的業(yè)務(wù)模式,服務(wù)客戶超過(guò)2000家。我們致力于成為世界領(lǐng)先的算力服務(wù)供應(yīng)商,為人工智能、科研教育、智能制造、生命科學(xué)等領(lǐng)域的用戶,持續(xù)提供高質(zhì)量、高性能、高性價(jià)比的算力服務(wù)。
公司主頁(yè)