《用Python写网络爬虫》——导读

更新时间：2021-12-15 05:29:51

《用Python写网络爬虫》——导读

前言

互联网包含了迄今为止最有用的数据集，并且大部分可以免费公开访问。但是，这些数据难以复用。它们被嵌入在网站的结构和样式当中，需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上，网络爬虫也变得越来越有用。

目录

[ 第1章网络爬虫简介
1.1 网络爬虫何时有用](https://yq.aliyun.com/articles/91817/)
1.2 网络爬虫是否合法
 1.3 背景调研
1.3.1 检查robots.txt
1.3.2 检查网站地图
1.3.3 估算网站大小
1.3.4 识别网站所用技术
1.3.5 寻找网站所有者
1.4 编写第一个网络爬虫
1.4.1 下载网页
1.4.2 网站地图爬虫
1.4.3 ID遍历爬虫
1.4.4 链接爬虫
1.5 本章小结
[第2章数据抓取
2.1 分析网页](https://yq.aliyun.com/articles/91886/)
2.2 三种网页抓取方法
2.2.1 正则表达式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.2.4 性能对比
2.2.5 结论
2.2.6 为链接爬虫添加抓取回调
2.3 本章小结
第3章下载缓存
第4章并发下载
第5章动态内容
第6章表单交互
第7章验证码处理
第8章 Scrapy
第9章总结

上一篇 : ：Struts2文件上传下一篇 : 软考网工难点分析之三 CRC循环冗余校验

相关阅读

推荐文章