Я пытаюсь очистить найденную таблицу https://ark.intel.com/content/www/us/en/ark/search/featurefilter.html?productType=873&1_Filter-Family=595&2_StatusCodeText=4
Я попытался использовать BeautifulSoup, и Суп не может проанализировать информацию, расположенную внутри тега "body". Я получаю нулевой вывод, когда пытаюсь разобрать таблицу.
Как мне обойти это?
Эта страница использует JavaScript для добавления данных, но BeautifulSoup / LXML не может запустить JavaScript - если вы отключите javaScrip в браузере и загрузите страницу, вы увидите, что может BeautifulSoup / L XML получить.
BeautifulSoup
LXML
Вам может понадобиться Selenium для управления веб-браузером, который может работать JavaScript.
Или вы можете попробовать использовать DevTools в Chrome / Firefox (вкладка Network) to get url usesJavaScript(AJAX/ XHR ) to download data. And you can try to use this url with запросы and BeautifulSoup`
DevTools
Chrome
Firefox
Network) to get url uses
(
/
) to download data. And you can try to use this url with
and
Я обнаружил, что используется URL:
https://ark.intel.com/libs/apps/intel/support/ark/advancedFilterSearch?productType=873&1_Filter-Family=595&2_StatusCodeText=4&forwardPath= / content / www/us/en/ark/search/featurefilter.html&pageNo=1
Я не проверял, понадобится ли requests специальные настройки (ie. куки, заголовки) для его получения.
requests
Вы можете использовать Puppeteer для «управления» динамической веб-страницей c и очистки ее с помощью BS.
Смотрите здесь: https://github.com/puppeteer/puppeteer/tree/master/examples