工作职责:
1、负责分布式爬虫系统平台的设计与开发(如抓取调度,页面解析和结构化抽取,海量数据存储和读取等);
2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转、接口有鉴权签名等难点,提升数据抓取的效率和质量;
3、把握网络爬虫核心技术研究方向,研究优化策略,提升爬虫系统的稳定性、可扩展性;
4、带领爬虫团队完成数据采集工作(与后台工程师对接,完成实时数据与离线数据的爬取与对接)。
5、对数据采集业务有深度的理解,能够提出完整的数据采集-清洗-数据管理(数据质量监控)-应用方案
职位要求:
1、计算机相关专业,3年及以上爬虫经验;有分布式爬虫系统设计经验
2、良好的代码能力,扎实的数据结构和算法功底,有快速迭代、逐步优化的工程项目经验;
3、精通反爬技术,精通http协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取、APP抓取等技术;
4、熟悉分布式系统、多线程、协程,精通scrapy框架以及原理,有开发爬虫框架经验;
5、对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验。
6、有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,善于跨团队合作;
7、有自然语言处理、大数据处理相关经验优先
8、有建筑行业数据获取经验者优先
Copyright C 20092014 All Rights Reserved 版权所有 鑫潮人力资源服务 苏ICP备12049413号-3
地址: EMAIL:admin@admin.com
Powered by PHPYun.