崗位職責(zé):
1. 負(fù)責(zé)高性能集群的運(yùn)行和日常維護(hù)、按時(shí)完成日常巡檢工作;
2. 負(fù)責(zé)高性能集群的用戶技術(shù)支持和集群系統(tǒng)管理軟件的維護(hù);
3. 管理高性能集群的計(jì)算資源和用戶,部署管理策略,監(jiān)控運(yùn)營環(huán)境;
4. 帶領(lǐng)團(tuán)隊(duì)進(jìn)行故障排查和應(yīng)急相應(yīng),特別是在GPU密集型應(yīng)用和高性能計(jì)算場(chǎng)景下,確保系統(tǒng)快速恢復(fù)正常運(yùn)行;
5. 對(duì)運(yùn)維風(fēng)險(xiǎn)進(jìn)行識(shí)別、評(píng)估和控制,特別關(guān)注GPU資源的穩(wěn)定性和性能,確保公司信息安全和業(yè)務(wù)連續(xù)性;
6. 負(fù)責(zé)運(yùn)維團(tuán)隊(duì)的技術(shù)培訓(xùn)和能力提升,培養(yǎng)具備云計(jì)算、GPU運(yùn)維和高性能計(jì)算專業(yè)技能的運(yùn)維工程師;
7. 參與公司重大項(xiàng)目的技術(shù)支持與決策,特別是在云計(jì)算和算力平臺(tái)相關(guān)的項(xiàng)目中,為業(yè)務(wù)發(fā)展提供技術(shù)保障。
任職要求:
1. 本科或本科以上學(xué)歷,計(jì)算機(jī)、電子信息、通信、物理等相關(guān)專業(yè);
2. 具有1-3年相關(guān)工作經(jīng)驗(yàn),有大型超算中心實(shí)際運(yùn)維經(jīng)驗(yàn)者優(yōu)先考慮;
3. 最好熟悉高性能計(jì)算集群中服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)實(shí)現(xiàn)原理;
4. 熟悉Ansible, Puppet, Kubernetes等基礎(chǔ)系統(tǒng)軟件;
5. 熟悉Linux操作系統(tǒng);
6. 至少會(huì)一門語言;
7. 更夠獨(dú)立完成監(jiān)控,報(bào)警等運(yùn)維系統(tǒng)得搭建部署與設(shè)計(jì);
8. 具備較強(qiáng)服務(wù)意識(shí)和良好的溝通能力,能夠承受一定工作壓力。