Я хочу, чтобы scrapy сканировал страницы, где переход к следующей ссылке выглядит следующим образом:
<a href="#" onclick="return gotoPage('2');"> Next </a>
Сможет ли скрапить интерпретировать код Javascript?
С расширением livehttpheaders Я обнаружил, что нажатие кнопки Далее генерирует POST с действительно огромным фрагментом «мусора», начинающимся так:
encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n
Я пытаюсь построить своего паука на классе CrawlSpider
, но я не могу понять, как его кодировать, с BaseSpider
Я использовал метод parse()
для обработки первого URL, который происходит с быть формой входа в систему, где я сделал POST с:
def logon(self, response):
login_form_data={ 'email': 'user@example.com', 'password': 'mypass22', 'action': 'sign-in' }
return [FormRequest.from_response(response, formnumber=0, formdata=login_form_data, callback=self.submit_next)]
А потом я определил submit_next (), чтобы сказать, что делать дальше. Я не могу понять, как мне сообщить CrawlSpider, какой метод использовать для первого URL?
Все запросы в моем сканировании, кроме первого, являются запросами POST. Они чередуют два типа запросов: вставляют некоторые данные и нажимают «Далее», чтобы перейти на следующую страницу.