有关网页抓取问题的一些经验总结

更新时间：2022-10-04 10:13:57

在写爬虫的时候经常会遇到有些页面下载下来会有问题，如果你把请求模拟成和浏览器一样，肯定是可以把页面正确获取的，但是其中往往很多参数都没有什么用，真正影响的就几个关键参数。这里特别把自己的经验做一下总结。

重点需要关注的参数有：
1. url: 这主要就是URL编码会导致问题，在URL中包含中文的时候可能会出现
2. user-agent: 大网站通常会对不同的浏览器做优化，所以会有区别
3. cookie: 有些网站会用到cookie信息，比如有些网站会把session信息记录在cookie中
4. refer: 有些网站为了防止跨站攻击，会对refer的页面进行检查
5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理
6. sessionID: 这个有时会设在参数中，有些网站会用到这个值，当然还有其他参数可能会有用到。

上面都是经验之谈，希望能对大家有所帮助。

本文转自passover 51CTO博客，原文链接：http://blog.51cto.com/passover/560121，如需转载请自行联系原作者

上一篇 : ：App-V 4.6 SP1系列之二打包应用程序下一篇 : 配置RIP、下一跳、静态、单臂示例

有关网页抓取问题的一些经验总结

相关阅读

推荐文章