且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《用Python写网络爬虫》——导读

更新时间:2021-12-15 05:29:51


《用Python写网络爬虫》——导读

前 言

互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。

目 录

[ 第1章 网络爬虫简介
1.1 网络爬虫何时有用](https://yq.aliyun.com/articles/91817/)
1.2 网络爬虫是否合法
1.3 背景调研
1.3.1 检查robots.txt
1.3.2 检查网站地图
1.3.3 估算网站大小
1.3.4 识别网站所用技术
1.3.5 寻找网站所有者
1.4 编写第一个网络爬虫
1.4.1 下载网页
1.4.2 网站地图爬虫
1.4.3 ID遍历爬虫
1.4.4 链接爬虫
1.5 本章小结
[第2章 数据抓取
2.1 分析网页](https://yq.aliyun.com/articles/91886/)
2.2 三种网页抓取方法
2.2.1 正则表达式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.2.4 性能对比
2.2.5 结论
2.2.6 为链接爬虫添加抓取回调
2.3 本章小结
第3章 下载缓存
第4章 并发下载
第5章 动态内容
第6章 表单交互
第7章 验证码处理
第8章 Scrapy
第9章 总结