Невозможно очистить веб-страницу Dynami c - PullRequest
0 голосов
/ 05 марта 2020

Я пытаюсь очистить найденную таблицу https://ark.intel.com/content/www/us/en/ark/search/featurefilter.html?productType=873&1_Filter-Family=595&2_StatusCodeText=4

Я попытался использовать BeautifulSoup, и Суп не может проанализировать информацию, расположенную внутри тега "body". Я получаю нулевой вывод, когда пытаюсь разобрать таблицу.

Как мне обойти это?

Ответы [ 2 ]

1 голос
/ 05 марта 2020

Эта страница использует JavaScript для добавления данных, но BeautifulSoup / LXML не может запустить JavaScript - если вы отключите javaScrip в браузере и загрузите страницу, вы увидите, что может BeautifulSoup / L XML получить.

Вам может понадобиться Selenium для управления веб-браузером, который может работать JavaScript.

Или вы можете попробовать использовать DevTools в Chrome / Firefox (вкладка Network) to get url usesJavaScript(AJAX/ XHR ) to download data. And you can try to use this url with запросы and BeautifulSoup`

Я обнаружил, что используется URL:

https://ark.intel.com/libs/apps/intel/support/ark/advancedFilterSearch?productType=873&1_Filter-Family=595&2_StatusCodeText=4&forwardPath= / content / www/us/en/ark/search/featurefilter.html&pageNo=1

Я не проверял, понадобится ли requests специальные настройки (ie. куки, заголовки) для его получения.

0 голосов
/ 05 марта 2020

Вы можете использовать Puppeteer для «управления» динамической веб-страницей c и очистки ее с помощью BS.

Смотрите здесь: https://github.com/puppeteer/puppeteer/tree/master/examples

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...