返回

python爬虫工程师

7-12k·16薪杭州 / 经验不限 / 本科
数据数据挖掘
发布于 2021-12-27 06:41

职位描述

【岗位描述】 - 负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析以及清洗入库等工作; - 设计爬虫策略和防屏蔽规则,提升网页和APP数据抓取的效率和质量; - 负责数据清洗、结构化、入库、统计分析等需求。 【岗位要求】 - 熟练掌握至少一门爬虫框架,熟练 Scrapy 优先; - 熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术; ­- 熟悉了解html、css、javascript,懂得分析常见web界面结构; - 熟悉常见反爬机制,验证码识别; - 掌握至少一种SQL语言,熟悉Linux及Docker、K8S为加分项; - 熟悉应用Selenium+PhantomJS实施动态HTML抓取; - 熟悉应用Ip池、headers认证和cookie等; - 熟练使用http代理工具charles、fiddler等; - 数据结构与经典算法等计算机基础扎实,逻辑思维较强; - 热爱编程,喜欢折腾各类工具,热衷于探寻技术背后的原理; - 责任心较强,做事细致耐心,具有良好的团队合作意识; 【公司福利】 - 年终奖 - 五险一金 - 零食下午茶 - 股票期权 - 弹性工作时间 【关于我们】 整数科技有限责任公司于2019年成立于西子湖畔。依托浙江大学计算机学院先进技术,通过自主开发的Molardata(麻辣数据)众包标注平台,致力于提供专业的AI领域大数据定制服务,为人工智能产品的落地提供支持与助力。团队核心成员均为国内TOP3高校的博士、硕士研究生,是一群有梦想、积极向上、朝气蓬勃的年轻人。目前公司正处于蓬勃发展期,项目已受《新锐杭商》、《中国蓝新闻》、《香港文汇报》等多家新闻媒体报道。我们期待有理想、有实力的你,和我们一起成就人工智能时代的辉煌!