Как сканировать IMDB?Кнопка [Читать далее] не нажата - PullRequest
0 голосов
/ 03 июня 2019

Я извлекаю обзоры фильмов IMDB.

Возникла проблема. Чтобы вызвать обзоры фильмов, необходимо нажать кнопку [read-more].

Но после просмотраболее того, я не знаю, как это закончить.

В настоящее время он обрабатывается «опросным путем».Как вы можете справиться с этим более разумно?

, когда есть, что читать:

enter image description here

, когда больше нечего читать:

enter image description here

Спасибо!

1 Ответ

0 голосов
/ 03 июня 2019

Если вы делаете это в Python, вы можете использовать xpath для извлечения xpath со страницы html. Пример получения отзывов приведен ниже.Вы можете использовать try, кроме case, чтобы, если на странице нет информации, цикл закончится.Посмотрите на приведенный ниже пример, он может помочь вам - -

reviews = driver.find_elements_by_xpath('//article[@itemprop = "review"]')
            for review in reviews:

                # Initialize an empty dictionary for each review
                review_dict = {}

                # Find xpaths of the fields desired as columns in future data frame
                # We use the try/except statements to account for the fact that the reviews are not required to have
                # all the fields listed below, and if a review does not have a certain field we wish to make the
                # corresponding field blank in that particular row, rather than quit upon receiving an error.
                try:
                    airline = review.find_element_by_xpath(
                        '//div[@class = "review-heading"]//h1[@itemprop = "name"]').text
                except:
                    airline = page
                try:
                    overall = review.find_element_by_xpath('.//span[@itemprop = "ratingValue"]').text
                except:
                    overall = ""

Таким же образом вы можете использовать элемент xpath для вашего случая IMDB и использовать try, за исключением того, что не появляется никаких ошибок, если нечего читать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...