职位描述
【岗位描述】
- 负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析以及清洗入库等工作;
- 设计爬虫策略和防屏蔽规则,提升网页和APP数据抓取的效率和质量;
- 负责数据清洗、结构化、入库、统计分析等需求。
【岗位要求】
- 熟练掌握至少一门爬虫框架,熟练 Scrapy 优先;
- 熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术;
- 熟悉了解html、css、javascript,懂得分析常见web界面结构;
- 熟悉常见反爬机制,验证码识别;
- 掌握至少一种SQL语言,熟悉Linux及Docker、K8S为加分项;
- 熟悉应用Selenium+PhantomJS实施动态HTML抓取;
- 熟悉应用Ip池、headers认证和cookie等;
- 熟练使用http代理工具charles、fiddler等;
- 数据结构与经典算法等计算机基础扎实,逻辑思维较强;
- 热爱编程,喜欢折腾各类工具,热衷于探寻技术背后的原理;
- 责任心较强,做事细致耐心,具有良好的团队合作意识;
【公司福利】
- 年终奖
- 五险一金
- 零食下午茶
- 股票期权
- 弹性工作时间
【关于我们】
整数科技有限责任公司于2019年成立于西子湖畔。依托浙江大学计算机学院先进技术,通过自主开发的Molardata(麻辣数据)众包标注平台,致力于提供专业的AI领域大数据定制服务,为人工智能产品的落地提供支持与助力。团队核心成员均为国内TOP3高校的博士、硕士研究生,是一群有梦想、积极向上、朝气蓬勃的年轻人。目前公司正处于蓬勃发展期,项目已受《新锐杭商》、《中国蓝新闻》、《香港文汇报》等多家新闻媒体报道。我们期待有理想、有实力的你,和我们一起成就人工智能时代的辉煌!