Scrapy Spider 无限爬行

更新时间：2022-03-12 09:37:21

# -*- coding: utf-8 -*-
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class TopartSpider(CrawlSpider):
    name = 'topart'
    allowed_domains = ['topart-online.com']
    start_urls = ['http://topart-online.com/']

    rules = (
        Rule(LinkExtractor(allow=r'/a-'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        return {'Link': response.url}

上一篇 : ：运行多个 Scrapy Spider(简单的方法)Python下一篇 : 从Django调用Scrapy Spider

技术问答最新文章

PKIX路径建设失败：sun.security.provider.certpath.SunCertPathBuilderException：无法找到有效的认证路径请求的目标
cmake无法找到openssl
获取异常（org.apache.poi.openxml4j.exception - 没有内容类型[M1.13]）阅读使用Apache POI XLSX文件时？
SpringBoot - 制作jar文件 - 在META-INF / spring.factories中找不到自动配置类
通过HTTPS加载页面但请求不安全的XMLHttpRequest端点
如何解决ssh：/usr/lib64/libcrypto.so.10：没有可用的版本信息
拒绝从执行脚本'*'，因为它的MIME类型（“应用/ JSON'）不是可执行文件，并严格MIME类型检查被启用。
绝对URI：http://java.sun.com/jsp/jstl/core不能在web.xml或部署该应用程序的jar文件来解决
bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？
Twitter :: Error :: Forbidden - 无法验证您的凭据

Scrapy Spider 无限爬行

相关阅读

技术问答最新文章