Я использую Scrapy, чтобы сканировать и очищать многочисленные сайты.Scrapy необходимо сканировать URL-адреса в чувствительном к регистру режиме, поскольку это важная информация при запросе веб-страницы.Многие веб-сайты ссылаются на некоторые веб-страницы, используя разные оболочки одних и тех же URL-адресов, что обманывает Scrapy в создании дубликатов.
Например, страница https://www.example.com/index.html ссылается на https://www.example.com/User1.php и https://www.example.com/user1.php
Нам нужна Scrapy для сбора обеих страниц, как при просмотре страницы User1.php, мы еще не знаем, что мы собираем его клон позже через user1.php.Мы не можем использовать строчные буквы https://www.example.com/User1.php во время сканирования, поскольку сервер может выдать ошибку 404, когда страница https://www.example.com/user1.php недоступна.
Итак, я ищу решение дляпопросите Scrapy сканировать URL-адреса в режиме с учетом регистра, но фильтровать дубликаты страниц после их сбора в режиме без учета регистра перед их очисткой, чтобы исключить риск дублирования.
Кто-нибудь знает, как использовать Scrapy в обоих режимах одновременно.