崗位工作概述:
1. 負(fù)責(zé)設(shè)計(jì)、部署、優(yōu)化及維護(hù)高效、可擴(kuò)展的AI算力IT系統(tǒng)設(shè)施,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)及安全設(shè)備等;
2. 確保用戶AI研發(fā)、模型訓(xùn)練及推理任務(wù)的順利進(jìn)行;
1.
具備10年以上AI算力系統(tǒng)或高性能計(jì)算(HPC)領(lǐng)域的工作經(jīng)驗(yàn),有成功部署和優(yōu)化大規(guī)模AI計(jì)算集群的經(jīng)驗(yàn)者優(yōu)先;
2.
在大型互聯(lián)網(wǎng)公司、科研機(jī)構(gòu)或AI初創(chuàng)企業(yè)從事AI算力系統(tǒng)建設(shè)與維護(hù)的經(jīng)驗(yàn);
1. 計(jì)算機(jī)科學(xué)、信息技術(shù)、軟件工程或相關(guān)專業(yè)本科及以上學(xué)歷;
1. 架構(gòu)設(shè)計(jì):能夠設(shè)計(jì)高可用、可擴(kuò)展的AI算力架構(gòu),包括硬件選型、網(wǎng)絡(luò)規(guī)劃、存儲(chǔ)設(shè)計(jì)等;
2. 資源調(diào)度與優(yōu)化:熟悉Kubernetes、Docker等容器化技術(shù),以及YARN等資源調(diào)度系統(tǒng),能夠優(yōu)化資源利用率,提升計(jì)算效率;
3. 性能調(diào)優(yōu):具備深入的系統(tǒng)性能調(diào)優(yōu)能力,包括CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)等各方面的優(yōu)化;
4. 自動(dòng)化運(yùn)維:熟悉Ansible、Puppet等自動(dòng)化運(yùn)維工具,能夠編寫(xiě)自動(dòng)化腳本提升運(yùn)維效率;
1.
系統(tǒng)規(guī)劃與設(shè)計(jì):根據(jù)公司業(yè)務(wù)需求,規(guī)劃并設(shè)計(jì)AI算力系統(tǒng)的整體架構(gòu),包括硬件選型、網(wǎng)絡(luò)布局、存儲(chǔ)策略等。
2.
部署與集成:負(fù)責(zé)AI算力集群的部署、配置與集成,確保系統(tǒng)穩(wěn)定運(yùn)行。
3.
性能優(yōu)化:對(duì)AI算力任務(wù)進(jìn)行性能分析,提出并實(shí)施優(yōu)化方案,提升計(jì)算效率。
4.
運(yùn)維管理:負(fù)責(zé)日常運(yùn)維工作,包括系統(tǒng)監(jiān)控、日志分析、故障排查與解決等。
5.
技術(shù)創(chuàng)新與研究:跟蹤AI算力領(lǐng)域的最新技術(shù)動(dòng)態(tài),探索并引入新技術(shù),提升系統(tǒng)競(jìng)爭(zhēng)力。
1. 具備自驅(qū)力:具備工作主動(dòng)性和自我驅(qū)動(dòng)學(xué)習(xí)能力;
2.
問(wèn)題解決:具備較強(qiáng)的問(wèn)題分析和解決能力,能夠獨(dú)立或協(xié)助解決復(fù)雜的技術(shù)問(wèn)題;
北京 - 海淀
北京軟件和信息服務(wù)業(yè)協(xié)會(huì)北京 - 朝陽(yáng)
北京 - 西城
北京 - 通州
北京 - 通州
北京 - 海淀