崗位職責(zé):
1、研究基于深度強(qiáng)化學(xué)習(xí)模型的機(jī)器人技能訓(xùn)練方法,增強(qiáng)機(jī)器人在各種任務(wù)中的表現(xiàn);
2、搭建和維護(hù)強(qiáng)化學(xué)習(xí)環(huán)境,確保在仿真和實體中進(jìn)行有效的訓(xùn)練和測試;
3、尋找新方法優(yōu)化已有的 DRL 算法以適應(yīng)特定的機(jī)器人應(yīng)用場景;
4、設(shè)計和實施端到端的機(jī)器人學(xué)習(xí)方案;分析實驗結(jié)果,調(diào)整和優(yōu)化算法性能;
5、在強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等進(jìn)行前沿技術(shù)研究,并應(yīng)用這些技術(shù)到智能機(jī)器人的決策和控制系統(tǒng)中;
6、定期與團(tuán)隊分享研究進(jìn)展,撰寫技術(shù)文檔。
任職要求:
1、碩士及以上學(xué)歷,計算機(jī)科學(xué)、人工智能、機(jī)器人學(xué)或相關(guān)專業(yè);
2、3 年及以上的強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相關(guān)工作經(jīng)驗;
3、熟練掌握 Python 編程語言,以及使用 TensorFlow、PyTorch 等深度學(xué)習(xí)框架;
4、對 DRL 算法,如 Policy Gradients, Q-learning, DQN, A3C, PPO 等有深入研究和應(yīng)用經(jīng)驗;
5、能夠在模擬環(huán)境以及真實世界機(jī)器人系統(tǒng)中實施和調(diào)試 RL 算法優(yōu)先;
6、良好的英語能力,能無障礙閱讀英文技術(shù)文獻(xiàn)優(yōu)先。