Я использую Scrapy для очистки сайта.Страница элемента, которую я хочу очистить, выглядит следующим образом: http://www.somepage.com/itempage/&page=x. Где x
- любое число от 1
до 100
.Таким образом, у меня есть правило SgmlLinkExractor
с функцией обратного вызова, заданной для любой страницы, похожей на эту.
На веб-сайте нет страницы со списком всех элементов, поэтому я хочу как-то тщательно очистить эти URL (от 1
до 100
).Этот парень здесь , казалось, имел ту же проблему, но не мог понять ее.
У кого-нибудь есть решение?