Question

Я пытаюсь извлечь весь текст статьи со следующего сайта: https://www.phonearena.com/reviews/Samsung-Galaxy-S9-Plus-Review_id4494

Я пытался findAll(text=True), но он извлекает много бесполезной информации.

Так я и сделал findAll(text=True, recursive=False) но игнорирует текстовые данные в определенных тегах, как?Какой наиболее эффективный способ извлечения текста в этом случае?

kratze · Answer 1 · 15 мая 2018

Сайт защищен JavaScript.Он загружает содержимое тела, когда запросы уже получили HTTP-ответ.Вам нужно смоделировать реальный запрос страницы.С модулем Python Selenium Webdriver это было бы возможно.

Как получить доступ ко всему тексту с веб-сайта, включая тег?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить доступ ко всему тексту с веб-сайта, включая тег?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов