崗位職責(zé):
1、模塊開發(fā)與維護(hù):獨(dú)立完成模塊設(shè)計(jì)、編碼、測試及相關(guān)文檔工作。
2、爬蟲系統(tǒng)開發(fā):設(shè)計(jì)并開發(fā)高效、穩(wěn)定的網(wǎng)絡(luò)爬蟲系統(tǒng),確保數(shù)據(jù)準(zhǔn)確性和完整性。
3、系統(tǒng)優(yōu)化:優(yōu)化爬蟲抓取策略與調(diào)度策略,維護(hù)現(xiàn)有系統(tǒng),提升抓取速度與數(shù)據(jù)質(zhì)量。
4、數(shù)據(jù)處理:負(fù)責(zé)數(shù)據(jù)采集、解析、清洗、入庫及統(tǒng)計(jì)工作。
5、系統(tǒng)監(jiān)控:監(jiān)控爬蟲運(yùn)行狀態(tài),及時(shí)處理異常,確保系統(tǒng)穩(wěn)定性。
6、數(shù)據(jù)質(zhì)量反饋:及時(shí)反饋數(shù)據(jù)質(zhì)量情況,跟進(jìn)數(shù)據(jù)采集進(jìn)度
崗位要求:
1、經(jīng)驗(yàn)與學(xué)歷:3年以上工作經(jīng)驗(yàn),計(jì)算機(jī)、信息工程等專業(yè)優(yōu)先。
2、技術(shù)能力:熟練使用Python,掌握Scrapy、BeautifulSoup、Selenium等框架。
3、網(wǎng)絡(luò)協(xié)議與反爬蟲:熟悉HTTP/HTTPS協(xié)議,能解決封IP、驗(yàn)證碼、JS逆向等反爬蟲問題。
4、數(shù)據(jù)存儲(chǔ)與處理:熟悉MySQL、Redis、MongoDB、ES等工具。
5、網(wǎng)頁抓取技術(shù):精通網(wǎng)頁抓取原理與正則表達(dá)式,能從結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中提取信息。
6、溝通與抗壓能力:具備良好的溝通能力與產(chǎn)品意識(shí),能承受工作壓力。
7、優(yōu)先條件:有海量數(shù)據(jù)爬取、標(biāo)訊類爬取經(jīng)驗(yàn)者優(yōu)先。