Веб-скребок Python для Tripadvisor не получает некоторую информацию - PullRequest
0 голосов
/ 06 марта 2019

Я не уверен, что это правильное место для публикации, но я новичок в python и мне нужна помощь с проектом веб-скребка, над которым я работаю!

Вот что я написал до сих пор:

https://github.com/killersoda288/help/blob/master/Shortlist.py

У меня были некоторые проблемы с этим, что я недаже уверен, с чего начать поиск в Google, буду признателен за любую помощь или совет!

Самая серьезная проблема заключается в том, что некоторая информация, по-видимому, не собирается случайно.Я запускал код несколько раз, и различные свойства будут отображаться как 0 звезд или 0 номеров, и это меня действительно смущает.

Еще одна не столь серьезная проблема, которая у меня естьэто эффективность.Требуется около 1 минуты, чтобы закончить страницу.Мне не с чем сравнивать, но я бы хотел сделать его более эффективным, если это возможно!Дело в том, что я не знаю, как это сделать.

Опять же, спасибо за чтение!Буду признателен за любые советы :)

1 Ответ

0 голосов
/ 06 марта 2019

Позвольте мне обобщить ваши вопросы:

  1. Невозможно извлечь номер комнаты или звездный рейтинг.

    Вам нужно просмотреть больше предметов, чтобы найти более общий шаблон для их извлечения. Я быстро заглядываю на эту страницу и обнаруживаю, что .ui_bubble_rating может использоваться для получения рейтинга, .room-info может быть полезным для номера комнаты. Вы можете проверить это. (Надеюсь, я прав: P)

  2. Вам нужно повторить URL каждого элемента, так что это займет много времени, например, если на одной странице содержится 20 элементов, скребок должен отправить запрос 20 + 1 (1 для этой страницы), как это оптимизировать?

    Поскольку номер комнаты находится только на странице сведений, скребок должен выполнять итерацию каждого элемента. Вы можете загрузить эти страницы с описанием многопоточности. Scrapy может закончить это очень хорошо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...