Как получить доступ ко всему тексту с веб-сайта, включая тег? - PullRequest
0 голосов
/ 11 мая 2018

Я пытаюсь извлечь весь текст статьи со следующего сайта: https://www.phonearena.com/reviews/Samsung-Galaxy-S9-Plus-Review_id4494

Я пытался findAll(text=True), но он извлекает много бесполезной информации.

Так я и сделал findAll(text=True, recursive=False) но игнорирует текстовые данные в определенных тегах, как?Какой наиболее эффективный способ извлечения текста в этом случае?

1 Ответ

0 голосов
/ 15 мая 2018

Сайт защищен JavaScript.Он загружает содержимое тела, когда запросы уже получили HTTP-ответ.Вам нужно смоделировать реальный запрос страницы.С модулем Python Selenium Webdriver это было бы возможно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...