工作職責:
1、操作系統(tǒng)管理:負責 Linux/Windows 服務器的安裝、配置、維護和優(yōu)化,包括用戶管理、權限控制、軟件安裝、補丁更新、性能調優(yōu)等。
2、容器技術: 熟悉 Docker、Swarm、Kubernetes 等容器技術,負責容器的部署、管理、監(jiān)控和故障排除。
3、人工智能: 熟悉主流 GPU 性能性能參數(shù),熟悉 Langchain 等主流LLM編程框架與 Milvus 等主流向量數(shù)據庫的部署調優(yōu)排錯。
4、網絡管理: 負責公司和客戶的網絡架構的規(guī)劃、部署、維護和優(yōu)化,包括路由器、交換機、防火墻等網絡設備的配置和管理,以及網絡故障的排查和解決。
5、持續(xù)集成:負責搭建運維自動化發(fā)布平臺,與 git 倉庫結合,實現(xiàn)容器鏡像制作、制品庫發(fā)布等功能;
6、監(jiān)控系統(tǒng):負責搭建和維護系統(tǒng)監(jiān)控平臺,對服務器、網絡、應用等進行實時監(jiān)控,及時發(fā)現(xiàn)和預警潛在問題。
7、故障排除:負責系統(tǒng)故障的快速定位、分析和解決,并撰寫故障報告,提出改進建議,防止類似問題再次發(fā)生。
8、自動化運維:積極研究和應用自動化運維工具和技術,提高運維效率和質量。
9、文檔編寫:編寫和維護系統(tǒng)運維相關文檔,包括操作手冊、故障處理手冊、應急預案等。
10、團隊合作:與其他團隊成員緊密合作,共同完成項目任務,并積極分享經驗和知識。
任職要求:
1、學歷:計算機科學、信息技術或相關專業(yè)本科及以上學歷。
2、經驗:3 年以上系統(tǒng)運維相關工作經驗,有大型互聯(lián)網公司工作經驗者優(yōu)先。
3、技能:
- 精通 Linux/Windows 操作系統(tǒng),熟悉 Shell/Python 等腳本語言。
- 熟悉 Docker、Swarm、Kubernetes 等容器技術,有實際項目經驗。
- 熟悉 Langchain、Milvus 等 AIGC技術相關技術。
- 熟悉 Jenkins 等 CICD 工具。
- 熟悉 TCP/IP 協(xié)議、路由交換原理,具備網絡故障排查能力。
- 熟悉 Zabbix、Prometheus、Grafana 等監(jiān)控工具。
- 具備良好的故障分析和解決問題的能力,能夠獨立處理復雜問題。
- 具備良好的溝通能力和團隊合作精神,工作認真負責,積極主動。
- 具備較強的抗壓能力。
- 熟悉云計算平臺(阿里云、騰訊云、華為云等)。
- 熟悉 Ansible等自動化運維工具。
- 有DevOps 實踐經驗。