Как сделать webscrap для нескольких страниц на сайте, используя Python и Beautifulsoup4? - PullRequest
0 голосов
/ 25 мая 2019

Я пытаюсь пересмотреть сайт Traveloka.com и успешно получить данные отзывов клиентов.Но проблема только в 1 странице.Мне нужно получить все данные отзывов клиентов на (страница 1,2,3 .... и более).Я использую Beautifulsoup4.Я пытался изменить код и увидеть учебник, но все еще не работает.Пожалуйста, помогите мне, ребята.И это мой код ниже.

Импорт

from urllib.request import urlopen as uReq

from bs4 import BeautifulSoup as soup

URL-ссылка

my_url = 'https://www.traveloka.com/id-id/hotel/indonesia/horison-ultima-bandung-2000000081026?spec=26-05-2019.27-05-2019.1.1.HOTEL.2000000081026.Horison%20Ultima%20Bandung.2&prevSearchId=1634474608622074440&loginPromo=1&contexts=%7B%7D'

Разбор HTML

page_soup = soup(page_html, "html.parser")

Захватить каждый отзыв клиента

containers = page_soup.findAll("div",{"class":"_2K0Zb _278Mz"})  #div reviews

Цикл

для контейнера в контейнерах:

username_container = container.findAll("div",{"class":"css-76zvg2 r-1inkyih r-b88u0q"}) # review (username)
username = username_container[0].text

tanggal_container = container.findAll("div",{"class":"css-76zvg2 r-1ud240a r-1b43r93 r-b88u0q r-1d4mawv r-tsynxw"}) # review (tanggal)
tanggal = tanggal_container[0].text

deskripsi_container = container.findAll("div",{"class":"css-1dbjc4n r-1wzrnnt"}) # review (deskripsi)
deskripsi = deskripsi_container[0].text

print("username : " + username)
print("tanggal : " + tanggal)
print("deskripsi : " + deskripsi)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...