1.系統(tǒng)部署與維護(hù)
負(fù)責(zé)Hadoop、spark、flink、kafka等大數(shù)據(jù)平臺(tái)的搭建、部署、升級(jí)及日常運(yùn)維,保障集群高可用性。管理分布式存儲(chǔ)系統(tǒng)(如HDFS、Hbase、clickhouse等),優(yōu)化數(shù)據(jù)存儲(chǔ)與讀寫(xiě)性能。
2.監(jiān)控與故障處理
設(shè)計(jì)并實(shí)施大數(shù)據(jù)集群監(jiān)控體系(如prometheus、grafana、zabbix),實(shí)時(shí)預(yù)警系統(tǒng)異常。快速定位并解決集群故障、性能瓶頸及數(shù)據(jù)一致性問(wèn)題,保障SLA達(dá)標(biāo)。
3.性能調(diào)優(yōu)及資源管理
分析集群資源利用率(CPU/內(nèi)存/磁盤(pán)/網(wǎng)絡(luò)),優(yōu)化YARN、k8s等資源調(diào)度策略。針對(duì)計(jì)算任務(wù)(如mapreduce、spark作業(yè))進(jìn)行參數(shù)調(diào)優(yōu),提升數(shù)據(jù)處理效率。
4.自動(dòng)化與DevOps
開(kāi)發(fā)運(yùn)維腳本(Python/shell)或工具,實(shí)現(xiàn)部署、監(jiān)控、備份等流程自動(dòng)化。推動(dòng)CI/CD在數(shù)據(jù)流水線中的應(yīng)用,與開(kāi)發(fā)團(tuán)隊(duì)寫(xiě)作提升交付效率。
5.安全與合規(guī)
實(shí)施集群安全策略,包括權(quán)限管理(Kerberos/Ranger)、數(shù)據(jù)加密、審計(jì)日志等。配合完成數(shù)據(jù)備份,容災(zāi)方案及合規(guī)性檢查(如GDPR)。
任職要求:
1、精通Linux系統(tǒng)及網(wǎng)絡(luò)原理,數(shù)據(jù)JVM調(diào)優(yōu)、容器化技術(shù)(Docker/k8s)。
2、深入理解Hadoop組件,熟悉至少一種主流大數(shù)據(jù)計(jì)算引擎(Spark/Flink).
3、ansible/chef/puppet等自動(dòng)化運(yùn)維工具,具備腳本開(kāi)發(fā)能力(Python/shell/go)。
4、熟悉云平臺(tái)(AWS/Azure/阿里云)大數(shù)據(jù)服務(wù)(EMR、maxcompute)者優(yōu)先。
5、3年以上大數(shù)據(jù)平臺(tái)運(yùn)維經(jīng)驗(yàn),主導(dǎo)過(guò)500+節(jié)點(diǎn)集群運(yùn)維或性能優(yōu)化項(xiàng)目。有PB級(jí)數(shù)據(jù)規(guī)模、高并發(fā)實(shí)時(shí)處理場(chǎng)景經(jīng)驗(yàn)者優(yōu)先。
6、強(qiáng)烈的責(zé)任心和抗壓能力,能獨(dú)立處理線上緊急故障。良好的溝通能力,能與跨部門(mén)團(tuán)隊(duì)高效協(xié)作.
加分項(xiàng):
數(shù)據(jù)數(shù)據(jù)治理、元數(shù)據(jù)管理(Apache Atlas)或數(shù)據(jù)血緣工具。
有大數(shù)據(jù)平臺(tái)遷移或混合云架構(gòu)經(jīng)驗(yàn)。了解機(jī)器學(xué)習(xí)平臺(tái)(如MLflow/Kubeflow)運(yùn)維。