Scrapy продолжает висеть на пределе глубины - PullRequest
1 голос
/ 10 октября 2019

Я пытаюсь просканировать список сайтов и установил ограничение глубины 5. Scrapy не может сканировать дольше нескольких минут, не получая бесконечное количество этих сообщений: DEBUG: Ignoring link (depth > 5) какие швы идтив течение нескольких часов на том же сайте. Я неправильно понимаю, как следует использовать промежуточное программное обеспечение глубины, или это проблема скрапа? Код предотвращает перемещение экстрактора ссылок за пределы сайта путем создания списка правил с использованием URL-адресов сайта. Я включил код для этого ниже, потому что я подозреваю, что это может быть частью проблемы.

class EScraper(CrawlSpider):
    name = "emails"
    allowed_domains = []
    di = datainterface.DataInterface()
    dfn = di.getRowsBySIC('5511')
    rules = []
    for index, row in dfn.iterrows():
        allowed_domains.append(row['Website'].lower())
        lx = LinkExtractor()
        lx.allow_domains.add(row['Website'].lower())
        # lx.allow = re.compile(row['Website'].lower())
        rule = Rule(link_extractor=lx, follow=True, callback='landed',
                    cb_kwargs={'index': index, 'depth': 0, 'firstName': row['LastName'],
                                'lastName': row['FirstName'], 'found': {},
                               'title': row['Title'], 'main': row['Website']}) 
        rules.append(rule)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...