python为什么叫爬虫，爬虫能干什么？

接下来，我们详细了解一下Python爬虫。

一、了解爬虫的基本原理及过程

大部分爬虫都是按“发送请求—获得页面—解析页面—抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

简单来说，我们向服务器发送请求后，会得到返回的页面，通过解析页面之后，我们可以抽取我们想要的那部分信息，并存储在指定的文档或数据库中。

二、学习 Python 包并实现基本的爬虫过程

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，大家都习用Python来写爬虫，从requests+Xpath 开始，requests 负责连接网站，返回网页。Xpath 用于解析网页，便于抽取数据。

分布式这个东西，听起来非常吓人，但其实就是利用多线程的原理让多个爬虫同时工作，只要掌握 Scrapy + MongoDB + Redis 这三种工具就可以轻松玩转。

如果有用过 BeautifulSoup的朋友，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。掌握之后，你会发现爬虫的基本套路都差不多，一般的静态网站根本不在话下，豆瓣、糗事百科、腾讯新闻等基本上都可以上手了。

更多培训课程，学习资讯，课程优惠等学校信息，请进入北京丰台区Web培训北京石景山区Python培训北京海淀区Linux云计算培训网站详细了解，免费咨询电话：400-998-6158

下一篇: 什么是内存泄露？是否可以用Python来解决？

北京丰台区Web培训北京石景山区Python培训北京海淀区Linux云计算培训