Получить скрытый текст с удаленной страницы с помощью Selenium - PullRequest
0 голосов
/ 09 июля 2020

Я пытаюсь извлечь все отзывы из AirBNB, чтобы провести анализ настроений. Теперь у меня есть страница с 18 отзывами здесь , но на странице отображается только 6 отзывов (некоторые обзоры скрыты со ссылкой «показать больше»), а 18 отзывов отображаются только после нажатия «показать все 18 отзывов» .

Я автоматизирую извлечение текста с помощью Selenium, и не на всех страницах есть 18 отзывов. Я использую XPath, чтобы найти div, содержащий все обзоры, но кажется, что обзоры загружены javascript с использованием

<div data-plugin-in-point id="Reviews_default", data-section-id="reviews_default"....'some padding attributes here' tabindex=-1> 

Чтобы найти элемент, который я использую:

br.find_element_by_xpath('/html/body/div[4]/div/div/div/div/div/div[1]/main/div/div/div[4]/div/div/div[2]/section').text

br - это ссылка на объект Selenium

Как я могу извлечь весь текст из обзоров в этом div? Я не публикую здесь весь код с автоматизацией, так как думаю, что если я смогу закончить эту страницу, я смогу справиться с автоматизацией, чтобы извлечь обзоры со всех 94 страниц.

1 Ответ

0 голосов
/ 09 июля 2020

Попробуйте использовать:

element.get_attribute("textContent")

вместо

element.text
...