Мой ответ не использует Scrapy.Не стесняйтесь помечать этот ответ, если считаете, что он слишком далек от темы.
Но то, что я предоставляю, - это решение, которое поможет решить вашу более общую проблему.
Я столкнулся с подобной проблемой, когда анализировал результаты из Google.Я не хотел, чтобы какие-либо стандартные URL-адреса, отображаемые на странице результатов, были включены в мой окончательный список URL-адресов.Я также не хотел, чтобы отображались какие-либо строки запроса Google.Используя BeautifulSoup, модуль re и модуль запросов, я смог это сделать.
Для вашей проблемы я бы сказал, что вам нужен только BeautifulSoup и re.Вам понадобится функция, которая будет фильтровать домены.Функция должна принимать два параметра: ссылку и тестируемый URL.Используя модуль re, вы можете проверить, совпадает ли базовая строка тестового URL со строкой ссылки;если да, то разумно сделать вывод, что это внутренний URL.
Вы бы использовали BeautifulSoup для анализа html для <a>
тегов, которые содержат href
.