《精通Python网络爬虫：核心技术、框架与项目实战》——1.5　爬虫扩展——聚焦爬虫

更新时间：2022-06-25 11:37:58

本节书摘来自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书中的第1章，第1.5节，作者韦　玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5　爬虫扩展——聚焦爬虫

由于聚焦爬虫可以按对应的主题有目的地进行爬取，并且可以节省大量的服务器资源和带宽资源，具有很强的实用性，所以在此，我们将对聚焦爬虫进行详细讲解。图1-2所示为聚焦爬虫运行的流程，熟悉该流程后，我们可以更清晰地知道聚焦爬虫的工作原理和过程。

首先，聚焦爬虫拥有一个控制中心，该控制中心负责对整个爬虫系统进行管理和监控，主要包括控制用户交互、初始化爬行器、确定主题、协调各模块之间的工作、控制爬行过程等方面。

然后，将初始的URL集合传递给URL队列，页面爬行模块会从URL队列中读
取第一批URL列表，然后根据这些URL地址从互联网中进行相应的页面爬取。爬取后，将爬取到的内容传到页面数据库中存储，同时，在爬行过程中，会爬取到一些新的URL，此时，需要根据我们所定的主题使用链接过滤模块过滤掉无关链接，再将剩下来的URL链接根据主题使用链接评价模块或内容评价模块进行优先级的排序。完成后，将新的URL地址传递到URL队列中，供页面爬行模块使用。另一方面，将页面爬取并存放到页面数据库后，需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理，并根据处理结果建立索引数据库，用户检索对应信息时，可以从索引数据库中进行相应的检索，并得到对应的结果。

《精通Python网络爬虫：核心技术、框架与项目实战》——1.5　爬虫扩展——聚焦爬虫

这就是聚焦爬虫的主要工作流程，了解聚焦爬虫的主要工作流程有助于我们编写聚焦爬虫，使编写的思路更加清晰。

上一篇 : ：网易云音乐评论爬虫(二):爬取全部热门歌曲及其对应的id号下一篇 : 一起学微软Power BI系列-官方文档-入门指南(2)获取源数据

《精通Python网络爬虫：核心技术、框架与项目实战》——1.5　爬虫扩展——聚焦爬虫

1.5　爬虫扩展——聚焦爬虫

相关阅读

推荐文章

《精通Python网络爬虫：核心技术、框架与项目实战》——1.5 爬虫扩展——聚焦爬虫

1.5 爬虫扩展——聚焦爬虫

相关阅读

推荐文章

《精通Python网络爬虫：核心技术、框架与项目实战》——1.5　爬虫扩展——聚焦爬虫

1.5　爬虫扩展——聚焦爬虫