? 本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程或相關(guān)專業(yè),3年以上DevOps/運(yùn)維開發(fā)經(jīng)驗(yàn)。
? 3年以上云平臺(tái)(AWS/Azure/Alicloud)實(shí)戰(zhàn)經(jīng)驗(yàn),精通Kubernetes及容器化技術(shù)。
? 熟練掌握至少一門編程語言(Python/Go/Java),具備腳本開發(fā)及自動(dòng)化工具構(gòu)建能力。
? 有AI模型部署經(jīng)驗(yàn)(如TensorFlow Serving、ONNX、Kubeflow),了解模型監(jiān)控與迭代流程。
? 掌握數(shù)據(jù)處理與分析工具(Pandas/Spark/ELK),能從運(yùn)維數(shù)據(jù)中提取價(jià)值信息。
? 精通CI/CD工具鏈(Jenkins/GitLab CI/Argo CD),熟悉Infrastructure as Code(Terraform/Ansible)。
? 熟悉監(jiān)控告警體系(Prometheus/Grafana/AlertManager),具備復(fù)雜系統(tǒng)性能調(diào)優(yōu)經(jīng)驗(yàn)。
? 深入理解Linux系統(tǒng)、網(wǎng)絡(luò)協(xié)議及分布式系統(tǒng)設(shè)計(jì)原理。
? 強(qiáng)烈的技術(shù)熱情,能快速學(xué)習(xí)并應(yīng)用AI領(lǐng)域新技術(shù)。
? 優(yōu)秀的邏輯思維與問題解決能力,對(duì)技術(shù)細(xì)節(jié)有極致追求。
? 良好的溝通能力,能在跨團(tuán)隊(duì)協(xié)作中推動(dòng)技術(shù)方案落地。
? 設(shè)計(jì)并實(shí)現(xiàn)基于AI/ML的智能運(yùn)維解決方案(如異常檢測(cè)、日志分析、故障預(yù)測(cè)、資源調(diào)度優(yōu)化等)。
? 利用機(jī)器學(xué)習(xí)技術(shù)處理海量運(yùn)維數(shù)據(jù),構(gòu)建智能監(jiān)控、告警及自愈系統(tǒng)。
? 搭建和維護(hù)高可用、可擴(kuò)展的云原生基礎(chǔ)設(shè)施(AWS/Azure/GCP/Kubernetes等)。
? 負(fù)責(zé)系統(tǒng)監(jiān)控、日志管理、性能調(diào)優(yōu)及故障排查,保障7x24小時(shí)服務(wù)穩(wěn)定性。
? 制定并實(shí)施安全策略,包括權(quán)限管控、漏洞修復(fù)及合規(guī)性審計(jì)。
? 與研發(fā)團(tuán)隊(duì)協(xié)作,推動(dòng)AI模型的高效部署與迭代。
? 探索前沿技術(shù)(如AIOps、MLOps),優(yōu)化現(xiàn)有技術(shù)棧并推動(dòng)工具鏈智能化升級(jí)。