Сканирование ссылок, которые имеют href в одной цитате - PullRequest
0 голосов
/ 16 января 2012

Я использую Scrapy для сканирования некоторых веб-сайтов, и у меня проблема со ссылками, где href имеет одну цитату href=' ' вместо двойных кавычек href=" ".

И когда я разрешу сканировать все ссылки с помощью allow(), результат будет содержать только ссылки, образованные двойными кавычками. Как я могу преодолеть эту проблему?

1 Ответ

0 голосов
/ 16 января 2012

Используете ли вы scrapy.contrib_exp.crawlspider.rules.Rule и SgmlLinkExtractor? Я не думаю, что одинарные кавычки или двойные кавычки имеют значение. Если вы хотите, чтобы все ссылки были извлечены и связаны с этим конкретным правилом, используйте

Rule(SgmlLinkExtractor(allow=('.*', )), callback='parse_item')

as allow = () относится к пустому кортежу и, следовательно, никакие URL не будут сопоставлены.

...