更新于 今天

NLP算法工程師

1-1.5萬
  • 武漢江夏區(qū)
  • 1-3年
  • 本科
  • 全職
  • 招1人

職位描述

Python大模型算法對話系統(tǒng)文本生成
1. 大模型開發(fā)與優(yōu)化
? 負(fù)責(zé)大模型在特定場景(如醫(yī)療、大健康)的應(yīng)用開發(fā)和平臺搭建。
? 研究并優(yōu)化大模型的參數(shù)高效微調(diào)(LoRA、QLoRA)、量化(INT8、INT4)、剪枝(Pruning) 等技術(shù),提高推理效率。
? 負(fù)責(zé) Prompt Engineering、RAG(檢索增強(qiáng)生成)、Agent及 SFT(監(jiān)督微調(diào)) 相關(guān)技術(shù)優(yōu)化,提高模型在特定任務(wù)上的表現(xiàn)。
2. 大模型部署與工程化
?負(fù)責(zé)大模型的部署、推理優(yōu)化、資源調(diào)度,提升模型的并發(fā)處理能力和穩(wěn)定性。
? 參與 大模型 API/SDK 開發(fā),支持多場景應(yīng)用(Web、APP、SaaS平臺)。
3. AI 平臺開發(fā)與系統(tǒng)設(shè)計
? 負(fù)責(zé) AI 平臺的架構(gòu)設(shè)計、開發(fā)、測試、部署,打造端到端的 LLM 解決方案。
? 結(jié)合多模態(tài)技術(shù)(文本、語音、圖像),探索大模型與多模態(tài) AI 結(jié)合的能力。
? 進(jìn)行 LLM 訓(xùn)練與推理任務(wù)的優(yōu)化和調(diào)度。
4. 數(shù)據(jù)處理與標(biāo)注優(yōu)化
?負(fù)責(zé) AI 數(shù)據(jù)標(biāo)注、知識庫構(gòu)建、對數(shù)據(jù)清洗,提升大模型在特定領(lǐng)域的表現(xiàn)。
? 參與 模型效果評估、指標(biāo)分析,制定調(diào)優(yōu)策略。
1. 經(jīng)驗背景
1、本科及以上學(xué)歷,計算機(jī)、人工智能、數(shù)據(jù)科學(xué)等相關(guān)專業(yè)。
2、2年以上大模型/自然語言處理(NLP)算法開發(fā)經(jīng)驗,有醫(yī)療行業(yè) LLM 落地經(jīng)驗者優(yōu)先。
2、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)基礎(chǔ)
1.Python,熟練掌握Python,利用其豐富的庫進(jìn)行數(shù)據(jù)處理、模型構(gòu)建和訓(xùn)練。
2.熟悉 PyTorch、TensorFlow、JAX 等主流深度學(xué)習(xí)框架,能夠高效構(gòu)建和優(yōu)化深度學(xué)習(xí)模型。
3.PyTorch框架:熟悉PyTorch的基本操作,利用其靈活性進(jìn)行模型的快速原型設(shè)計和優(yōu)化。
4.Scikit-learn:使用Scikit-learn進(jìn)行特征選擇、模型訓(xùn)練和評估,了解從線性回歸到聚類分析的各種算法。
3. 數(shù)據(jù)與標(biāo)注能力
1、熟悉 AI 數(shù)據(jù)標(biāo)注、數(shù)據(jù)清洗、數(shù)據(jù)增強(qiáng) 技術(shù),能優(yōu)化 LLM 訓(xùn)練數(shù)據(jù)質(zhì)量。
2、具備基礎(chǔ)NLP任務(wù)(文本生成、意圖識別、對話管理) 經(jīng)驗,能設(shè)計高質(zhì)量的 Prompt。
4、大模型與自然語言處理(NLP)
1、熟悉 Transformer 結(jié)構(gòu)、BERT、GPT、T5、LLaMA、Mistral、Claude 等大模型原理。
2、具備 LoRA/QLoRA 微調(diào)、量化(INT8/INT4)、模型剪枝(Pruning)、知識蒸餾 經(jīng)驗。
3、熟悉 檢索增強(qiáng)生成(RAG)、向量數(shù)據(jù)庫、知識圖譜 等技術(shù)。
4.langchain框架:熟悉langchain框架,langchain-core,langchain-community,LangGraph用于處理長序列數(shù)據(jù)和復(fù)雜的序列建模任務(wù),提高了模型在處理長文本或時間序列數(shù)據(jù)時的效果。
5.BERT, RoBERTa, GPT3、4、千問、deepseek等模型:理解這些預(yù)訓(xùn)練模型的原理和應(yīng)用,進(jìn)行文本理解、問答系統(tǒng)等的開發(fā),提升了模型的語言理解能力。
6.NLTK/SpaCy:能夠使用NLTK或SpaCy進(jìn)行文本的分詞、詞性標(biāo)注、命名實體識別等預(yù)處理工作,提高了文本分析的準(zhǔn)確性。
5、數(shù)據(jù)處理與分析
1.Pandas:熟練使用Pandas進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換和分析,處理大規(guī)模的數(shù)據(jù)集。
2.NumPy:對于數(shù)值計算,使用NumPy進(jìn)行高效的數(shù)組操作和科學(xué)計算。
3.SQL:能夠編寫復(fù)雜的SQL查詢,進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)換和加載(ETL),確保數(shù)據(jù)的完整性和可用性。
6、模型優(yōu)化與工程化(至少熟練其中一到兩個)
1.TensorRT, ONNX:掌握了TensorRT和ONNX的使用,優(yōu)化模型的推理速度和內(nèi)存占用,適應(yīng)不同硬件環(huán)境。例如,通過TensorRT優(yōu)化后的模型,推理速度提升了35%。
2.Prompt Tuning:通過優(yōu)化提示詞(prompt)微調(diào)大模型,顯著提升少樣本學(xué)習(xí)(few-shot learning)效果。
3.Prefix Tuning:在輸入前添加可訓(xùn)練的前綴參數(shù),高效調(diào)整模型行為,適用于多任務(wù)學(xué)習(xí)。
4.LoRA(Low-Rank Adaptation):通過低秩分解微調(diào)大模型參數(shù),降低計算成本,適配資源受限場景。
5.P-Tuning:: 使用連續(xù)提示向量優(yōu)化模型,提升預(yù)訓(xùn)練模型在特定任務(wù)上的性能。
6.AdaLoRA: 動態(tài)調(diào)整低秩分解參數(shù),進(jìn)一步優(yōu)化模型微調(diào)效率和效果。
7.MLflow: 使用MLflow進(jìn)行實驗跟蹤、模型版本控制和部署,確保了開發(fā)過程的可重復(fù)性和可追溯性。
加分項
有主流 LLM 預(yù)訓(xùn)練或微調(diào)經(jīng)驗,并有 GitHub 代碼或論文發(fā)表者優(yōu)先
熟悉 AI Agent 開發(fā)(LangChain、AutoGPT)、插件適配及二次開發(fā)
有 deepseek大模型 訓(xùn)練/推理調(diào)優(yōu)經(jīng)驗
熟悉大模型推理框架(vLLM、Triton、ONNX、GGML)

工作地點

武漢江夏區(qū)武漢東湖新技術(shù)開發(fā)區(qū)高新大道818號武漢高科醫(yī)療器械園B地塊一期10棟4層04號

職位發(fā)布者

余女士/人事專員

今日活躍
立即溝通
公司Logo美益添生物醫(yī)藥(武漢)有限公司
美益添生物醫(yī)藥(武漢)有限公司成立于2018年4月,坐落在國家自主創(chuàng)新基地,光谷生物城高科醫(yī)療器械園,是國內(nèi)最早一批及湖北省唯一以精準(zhǔn)腸菌移植業(yè)務(wù)( pFMT)為核心的國家級高新技術(shù)企業(yè)。?底層技術(shù):兩大創(chuàng)新型數(shù)據(jù)庫①全國最大的腸道菌群相關(guān)慢病風(fēng)險分析數(shù)據(jù)庫(近百個“中國健康人-疾病-菌群模型譜”)②全球最大規(guī)模腸道菌群精準(zhǔn)培養(yǎng)模型數(shù)據(jù)庫(千余個腸菌精準(zhǔn)培養(yǎng)組分模型)全線產(chǎn)品:上游:診:菌群檢測、分析及供受體配型服務(wù)中游:產(chǎn):菌群分離設(shè)備、耗材及留置管道下游:療:定制化菌液膠囊及相關(guān)微生態(tài)制劑兩大國家標(biāo)準(zhǔn)計劃《信息技術(shù)生物特征識別高通量測序基因分型系統(tǒng)規(guī)范》及國家標(biāo)準(zhǔn)計劃《信息技術(shù)生物特征樣本質(zhì)量第14部分:DNA數(shù)據(jù)》的主要起草單位之一。
公司主頁