更新于 2月24日

大模型推理部署工程師(工程)

3.5-6萬
  • 北京海淀區(qū)
  • 5-10年
  • 碩士
  • 全職
  • 招1人

職位描述

深度學習TransformerC++Python模型推理工程LLMINFRA
職位名稱:大模型推理框架架構師
一、崗位職責:
1. 核心框架研發(fā)與性能優(yōu)化
1.1 主導大模型推理框架(包含 NVIDIA GPU 和昇騰 NPU)的設計與開發(fā),優(yōu)化推理性能(低延遲、高吞吐),包含算子優(yōu)化、通信優(yōu)化、分布式推理調度、Prefill/Decoding階段解耦等技術方向。
1.2 探索模型壓縮技術(如量化、剪枝、蒸餾),平衡模型精度與推理效率,推動技術落地。
1.3 構建端到端推理性能評估體系,設計自動化調優(yōu)工具,提升優(yōu)化效率。
2. 團隊管理與技術攻堅
2.1 帶領3-5人技術團隊完成復雜模塊開發(fā),制定技術方案并推動落地,協(xié)調資源解決技術瓶頸。
2.2 建立代碼規(guī)范與工程實踐標準,主導技術文檔編寫與核心代碼Review,培養(yǎng)團隊成員技術能力。
3. 跨領域協(xié)作與行業(yè)洞察
3.1 與產(chǎn)品團隊緊密配合,理解業(yè)務需求并轉化為技術方案,推動框架與業(yè)務場景深度適配。
3.2 跟蹤LLM推理領域最新進展(如動態(tài)批處理、連續(xù)批處理、KV Cache優(yōu)化等),探索技術突破點。
二、任職要求:
1. 基礎能力
1.1 計算機/數(shù)學/電子信息相關專業(yè)碩士及以上學歷,5年以上深度學習框架開發(fā)經(jīng)驗。
1.2 精通C++/Python,熟悉CUDA、多線程編程、分布式系統(tǒng)設計,具備復雜問題抽象與系統(tǒng)架構能力。
2. 技術專項
2.1 深入理解Transformer架構及主流大模型(如GPT、Llama)推理特性,熟悉vLLM、TensorRT-LLM、TGI等框架源碼。
2.2 具備算子優(yōu)化實戰(zhàn)經(jīng)驗(Kernel融合、內存復用),熟悉通信優(yōu)化技術(流水線并行、AllReduce優(yōu)化)。
2.3 掌握分布式推理調度策略(動態(tài)負載均衡、異構設備協(xié)同),有大規(guī)模集群優(yōu)化經(jīng)驗者優(yōu)先。
2.4 熟悉大模型推理常見的優(yōu)化技術:動態(tài)批處理、KV-Cache 優(yōu)化、投機采樣、連續(xù)批處理(Continuous Batching)、量化推理、注意力機制優(yōu)化;
3. 軟性要求
3.1 主導過至少2個大型項目全流程開發(fā),具備從技術方案設計到生產(chǎn)部署的全鏈路把控能力。
3.2 擅長技術團隊管理與跨部門協(xié)作,能夠通過技術文檔、案例復盤等方式推動團隊能力提升。
3.3 在頂會(ASPLOS、MLSys等)發(fā)表過系統(tǒng)優(yōu)化相關論文,或主導過開源項目者優(yōu)先。
三、加分項:
1. 熟悉MoE架構推理優(yōu)化、多模態(tài)大模型部署、存算一體等前沿技術
2. 具備LLM服務化部署經(jīng)驗(流量調度、彈性伸縮、故障自愈)
3. 掌握Triton等定制化編譯器開發(fā)能力

工作地點

西北旺東路10號院東區(qū)8

職位發(fā)布者

李燕青/人事經(jīng)理

今日活躍
立即溝通
公司Logo金數(shù)通(北京)科技有限公司
金數(shù)通(北京)科技有限公司是一家專業(yè)從事軟件開發(fā)、技術咨詢以及系統(tǒng)集成的高新技術企業(yè)。公司于2009年在北京海淀區(qū)中關村科技園區(qū)成立。公司在軟件服務領域公司推出提供較為高端的計算機軟件系統(tǒng)的分析設計服務。同時公司自行研發(fā)RDS系統(tǒng)方便IT類企業(yè)需求定義,開發(fā)及管理服務。金數(shù)通視“鍥而不舍,金石可鏤”為企業(yè)的座右銘。不斷開拓創(chuàng)新,以技術為核心、視質量為生命、為您提供優(yōu)秀的軟件產(chǎn)品及無微不至的售后服務。企業(yè)精神:開拓創(chuàng)新,追求卓越。
公司主頁