Python爬虫：scrapy框架Spider类参数设置

更新时间：2021-12-21 08:09:25

Spider设置

参数	说明	示例
name	爬虫名称，必须唯一	name = “myspider”
handle_httpstatus_list	需要处理的状态码	handle_httpstatus_list = [404]
download_delay	下载延时（单位：s秒）	download_delay = 5
allowed_domains	域名限制	allowed_domains = [“baidu.com”]
custom_settings	用户设置，单独设置爬虫参数	custom_settings ={‘RETRY_TIMES’: 3}
start_urls	起始链接设置	start_urls = [“http://www.baidu.com“]

settings.py或者custom_settings

参数	说明
USER_AGENT	请求头
ROBOTSTXT_OBEY = False	是否遵守robots协议
DOWNLOAD_DELAY = 2	同一个站点抓取延迟（秒s）
CONCURRENT_REQUESTS_PER_DOMAIN = 1	对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1	对同一个ip并发线程

上一篇 : ：Python编程：virtualenv创建独立的虚拟环境下一篇 : 详解web.xml中元素的加载顺序

相关阅读

推荐文章