ignore = ['google', 'twitter']
def parse(self, response):
for href in response.xpath('//a/@href').getall():
for kw in ignore:
if kw not in href.lower():
yield scrapy.Request(response.urljoin(href), self.parse)
В соответствии с запросом
РЕДАКТИРОВАТЬ:
Вы спросили, как можно исключить определенные ссылки, содержащие текст, например, приведенные вами примеры, Google и Twitter.
Я не изменил то, что делает ваш код, но просто добавил условное утверждение, которое проверит, содержит ли href ключевые слова.
Мы создаем список (наш список исключенных терминов).Затем нам нужно будет повторять этот список каждый раз, когда мы хотим проверить ссылку, поэтому чем короче список ключевых слов, тем лучше.
Если значение ключевого слова не является частью строки href, мы передаем и продолжаемитерация ссылки href.В противном случае мы выдаем его вместо этого.
Надеюсь, это поможет