Я пытаюсь просканировать список сайтов и установил ограничение глубины 5. Scrapy не может сканировать дольше нескольких минут, не получая бесконечное количество этих сообщений: DEBUG: Ignoring link (depth > 5)
какие швы идтив течение нескольких часов на том же сайте. Я неправильно понимаю, как следует использовать промежуточное программное обеспечение глубины, или это проблема скрапа? Код предотвращает перемещение экстрактора ссылок за пределы сайта путем создания списка правил с использованием URL-адресов сайта. Я включил код для этого ниже, потому что я подозреваю, что это может быть частью проблемы.
class EScraper(CrawlSpider):
name = "emails"
allowed_domains = []
di = datainterface.DataInterface()
dfn = di.getRowsBySIC('5511')
rules = []
for index, row in dfn.iterrows():
allowed_domains.append(row['Website'].lower())
lx = LinkExtractor()
lx.allow_domains.add(row['Website'].lower())
# lx.allow = re.compile(row['Website'].lower())
rule = Rule(link_extractor=lx, follow=True, callback='landed',
cb_kwargs={'index': index, 'depth': 0, 'firstName': row['LastName'],
'lastName': row['FirstName'], 'found': {},
'title': row['Title'], 'main': row['Website']})
rules.append(rule)