职位描述
我们正在寻找一名技术娴熟的数据爬取专家加入团队。理想人选将负责开发和维护网络爬虫程序,从各类数据源采集信息,确保高质量的数据提取与存储。
核心职责
- 负责静态网页、动态网页(JS渲染)、API接口数据等各类数据抓取
- 应对User Agent伪装、代理池、验证码绕过、Cookie加密、body参数加密等反爬策略,提升抓取成功率
- 运用XPath、CSS选择器、正则表达式等技术解析网页数据并提取信息
- 将采集数据存储至MySQL、MongoDB、Redis、Selectdb等数据库
- 编写数据清洗与去重相关代码,提升数据质量
- 监控爬虫运行状态,优化抓取策略,保障数据采集稳定性
任职要求
- 具备网络爬虫开发与数据抓取实战经验
- 精通各类反爬机制应对策略
- 熟练运用XPath、CSS选择器及正则表达式等数据提取技术
- 具有MySQL、MongoDB、Redis或Selectdb等数据库使用经验
- 能编写高效的数据清洗与去重脚本
- 出色的解决问题能力与细节把控意识
- 有爬虫性能监控与优化经验者优先