Question

Я использую Scrapy для сканирования некоторых веб-сайтов, и у меня проблема со ссылками, где href имеет одну цитату href=' ' вместо двойных кавычек href=" ".

И когда я разрешу сканировать все ссылки с помощью allow(), результат будет содержать только ссылки, образованные двойными кавычками. Как я могу преодолеть эту проблему?

goh · Answer 1 · 16 января 2012

Используете ли вы scrapy.contrib_exp.crawlspider.rules.Rule и SgmlLinkExtractor? Я не думаю, что одинарные кавычки или двойные кавычки имеют значение. Если вы хотите, чтобы все ссылки были извлечены и связаны с этим конкретным правилом, используйте

Rule(SgmlLinkExtractor(allow=('.*', )), callback='parse_item')

as allow = () относится к пустому кортежу и, следовательно, никакие URL не будут сопоставлены.

Сканирование ссылок, которые имеют href в одной цитате

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сканирование ссылок, которые имеют href в одной цитате

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы