联系方式

咨询热线:400-998-6158

点击此处免费预约试听课程»

常见问题
学习资讯
学习资讯

爬虫相关的项目经验

爬虫相关的项目经验

爬虫重在实践,除了理论知识之外,面试官也会十分注重爬虫相关的项目:

1、你做过哪些爬虫项目?

你认为你做的较好的爬虫项目是哪个?其中解决了什么难题?有什么特别之处?

以上是我在面试过程中,会碰到的一些技术相关的问题的总结,当然面试中不光是技术这一点,但是对于做技术的,过了技术面基本上就是*问题了。

也许有人问我现在在哪家公司做爬虫开发?很抱歉,较终我放弃了南京的所有机会到了上海做我更喜欢的岗位:数据工程师

2、给你一点我的面经吧。

初级的:

网络基础:cookie,session,https,headers常用的字段,代理使用等等

python基础:这个网上搜到的面经都得会,加上异步,多进程,多线程等等

爬虫:xpath,requests如何处理https,常见的反爬措施,举例说一个较难的爬虫过程,scrapy使用中的细节,例如代理,cookie,传参等等。

数据库:数据库操作,并表之类的。

中级:

网络:几层网络层的细节,比如说说udp/tcp/smtp区别,说说10.x.x.x/127.x.x.x/192.x.x.x的区别,说说DNS,谈谈路由交换机的区别

python:多重继承,多态,单例用装饰器的实现,数组/生成器/列表解析效率等等稍深入的细节

爬虫:分布式爬虫的实现,给你一个任务你马上给出一个合理的架构,验证码的处理,增量数据爬取,写爬虫时有没写些辅助工具。

数据库:sql nosql的细节,性能上的。

加分项:数据挖掘,机器学习,自然语言处理,能写网站,熟练操作linux,github小星星

3、首先说说Python吧

爬虫给人的感觉就是对于Python编程的知识要求并不高,确实,搞懂基本数据结构、语句,会写写函数好像就OK了。

自己业余玩玩爬点数据还OK,但是你是要找工作成功爬虫工程师的,扎实的编程基础可不是会写函数就够了的。Python的*特性、面向对象编程、多线程、装饰器等等你至少需要了解一下吧。

现在很多爬虫工程师的面试,编程的基本功要求还是很高的。编程的功底,以及对语言的理解,从某种程度上可以看出你的学习能力、发展潜力。

爬虫技术

HTTP*要有很深刻的理解,这是你纵横网络的立身之本;

BeautifulSoup、xpath这些都是基础操作了,一定要做到非常熟练;

Scrapy框架要会用,要能信手捏来写个分布式爬虫;

Webdriver、Selenium、PhantomJS至少也要会使用吧;

反爬虫的技巧,重中之重,能不能搞回来数据,能高多少数据回来,很大程度依赖于此。抓包、cookie分析、代理池搭建、字体加密、验证码处理等等,也都是常规操作了;

当然数据库也少不了啊。一般企业要求至少会一种SQL和一种noSQL。

了解布隆过滤器,会增量爬取。

加分项:

掌握Python web相关的一些东西,能够进行后端开发;

掌握数据分析或者数据挖掘的技能,能够搞个算法模型,做个分析和预测。

学校联系方式

更多培训课程,学习资讯,课程优惠等学校信息,请进入 哈尔滨呼兰区Web培训哈尔滨阿城区Python培训哈尔滨双城区Linux云计算培训 网站详细了解,免费咨询电话:400-998-6158

相关课程