1、分析网站特征,给出数据抓取和解析的解决方案;
2、独立解决实际开发过程碰到的各类问题;
3、设计数据采集策略,提升数据采集效率及质量 ;
4、研究网站安全的新技术等。
岗位要求:
1、计算机相关专业,本科及以上学历,有3年以上爬虫相关经验 ;
2、精通至少一种开发语言Java、Python,并能够快速学习掌握新开发语言 ;
3、熟悉 TCPIP、HTTP 协议 ;
4、熟练掌握 HTMLCSSjavascript 等 Web 技术 ;
5、精通反爬虫策略,并有实际应对经验,做过分布式爬虫工作 。
6、会AI算法
岗位职责:
1、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析。
2、解决各类技术疑难问题,包括网络问题、app分析、反编译等;
3、负责设计和开发分布式的网络爬虫,以及策略持续优化;
4、分析结构化和非结构化数据,并对数据抓取、信息提取、去重、清洗;
5、精通正则表达式、搜索策略、算法、数据聚类、重组技术。
任职资格:
1、2年以上JAVA或phython开发经验,熟悉Linux系统,熟悉多线程、多进程、网络通信编程相关知识;
2、熟悉网页抓取原理及技术,能够总结分析不同网站,网页的结构特点及规律;
3、熟悉HTML、JS、正则表达式、Jsoup或jQuery等,从结构化和非结构化数据中解析数据;
4、熟悉Mysql、Redis、Nosql等数据库;
5、熟悉Webmagic框架、PhantomJS或Headless Chrome、Selenium 、WebDriver等技术;
6、有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验者优先;熟悉Python优先;
7、做过智能化系统的优先考虑