崗位職責(zé):
1.基于業(yè)務(wù)場景(行為識別)對InternVL、QwenVL等VLM模型進行領(lǐng)域適配性微調(diào),優(yōu)化圖像理解、動作識別、多模態(tài)推理能力
2.構(gòu)建零售場景專屬數(shù)據(jù)集,設(shè)計數(shù)據(jù)增強策略,解決遮擋、光照變化等實際場景挑戰(zhàn)
3.實現(xiàn)CV&VLM模型在邊緣設(shè)備(如Jetson系列)/云端的輕量化部署,優(yōu)化推理速度與資源占用
4.開發(fā)模型服務(wù)化接口,支持實時視頻流分析與行為事件觸發(fā)機制
5.設(shè)計時序行為分析框架,融合目標(biāo)檢測(如定位、姿態(tài)估計、動作分類等多模塊協(xié)同工作
6.構(gòu)建基于VLM的異常行為識別系統(tǒng)(違規(guī)操作等場景)
7.跟進VLM前沿技術(shù)(如多模態(tài)prompt工程、模型蒸餾),探索3D視覺與VLM的融合方案
8.輸出可復(fù)用的算法組件庫,建立零售場景算法基準(zhǔn)測試體系
崗位要求:
1.熟練掌握PyTorch框架及HuggingFace生態(tài),具有InternVL/QwenVL等開源VLM實戰(zhàn)調(diào)優(yōu)經(jīng)驗
2.精通模型壓縮技術(shù)(量化/剪枝/知識蒸餾),有VLLM/LMdeploy等部署工具實戰(zhàn)經(jīng)驗
3.熟悉視頻理解技術(shù)棧(OpenCV/FFmpeg/Decord),具備多線程視頻處理系統(tǒng)開發(fā)能力
4.具備強工程實現(xiàn)能力,主導(dǎo)過至少1個完整AI項目從研發(fā)到落地的全生命周期
5.理解行為場景特性:能通過算法設(shè)計應(yīng)對監(jiān)控視角差異、制服相似度、復(fù)雜背景干擾等挑戰(zhàn)
6.有行為識別項目經(jīng)驗者優(yōu)先,熟悉NTU RGB+D、AVA等行為數(shù)據(jù)集者加分
7.具備產(chǎn)品化思維,能協(xié)同硬件團隊優(yōu)化計算資源分配方案
8.具有技術(shù)文檔撰寫習(xí)慣,代碼符合工業(yè)級可維護性標(biāo)準(zhǔn)
9.在CVPR/ICCV/ECCV等會議發(fā)表過多模態(tài)學(xué)習(xí)相關(guān)論文
10.有成功通過模型微調(diào)提升特定場景指標(biāo)30%以上案例
11.具備模型服務(wù)高并發(fā)處理經(jīng)驗
碩士或985,211的本科畢業(yè)生 ,30以內(nèi)
我們提供:
參與千萬級門店智能化改造的行業(yè)標(biāo)桿項目
配備A100/H100算力集群及邊緣設(shè)備開發(fā)套件
技術(shù)成果可快速應(yīng)用于數(shù)萬線下零售場景
與VLM領(lǐng)域頂尖團隊定期技術(shù)交流機會