Scrapy не возвращает никаких данных после определенного уровня div - PullRequest
0 голосов
/ 03 июля 2018

Я пытаюсь сканировать веб-сайт: https://www.firstpost.com/search/sachin-tendulkar шаги следовали: а. выборки ( "https://www.firstpost.com/search/sachin-tendulkar") б. view (response) -> до этого момента все работает как положено. Как только я начинаю извлекать данные с помощью приведенного ниже синтаксиса, я могу получить только div до определенного уровня response.xpath ( '// ДИВ [@ ид = "Результаты"]'). экстракт () после этого div я не могу получить доступ к другим div'ам и их содержимому.

В прошлом я не сталкивался с подобной проблемой при разработке сканера для другого веб-сайта. Не могли бы вы дать мне знать, как сканировать внутренние элементы?

1 Ответ

0 голосов
/ 03 июля 2018

Можете ли вы уточнить, что «не можете получить доступ к любым другим элементам div и их содержимому»? Вы получаете какую-либо ошибку?

Я могу получить доступ ко всем элементам div и их содержимому. Например основное содержание результата поиска находится внутри div - gsc-extensionArea, к которому можно получить доступ через

//div[class="gsc-expansionArea"]

и это может дать вам возможность работать.

Только первый результат находится вне этого div, к которому можно получить доступ через другой div

//div[class="gsc-webResult gsc-result"]

И последний брат этого //div[class="gcsc-branding"] не имеет результатов поиска.

...