且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

Python爬虫:scrapy框架Spider类参数设置

更新时间:2021-12-21 08:09:25

Spider设置

参数

说明

示例

name

爬虫名称,必须唯一

name = “myspider”

handle_httpstatus_list

需要处理的状态码

handle_httpstatus_list = [404]

download_delay

下载延时(单位:s秒)

download_delay = 5

allowed_domains

域名限制

allowed_domains = [“baidu.com”]

custom_settings

用户设置,单独设置爬虫参数

custom_settings ={‘RETRY_TIMES’: 3}

start_urls

起始链接设置

start_urls = [“http://www.baidu.com“]


settings.py或者custom_settings

参数

说明

USER_AGENT

请求头

ROBOTSTXT_OBEY = False

是否遵守robots协议

DOWNLOAD_DELAY = 2

同一个站点抓取延迟(秒s)

CONCURRENT_REQUESTS_PER_DOMAIN = 1

对同一个站点并发线程

CONCURRENT_REQUESTS_PER_IP = 1

对同一个ip并发线程