Web Scraping Language: Как выполнить сканирование страниц? - PullRequest
0 голосов
/ 26 января 2020

Я пытаюсь выполнить следующее: перейти к флипкарту, просканировать все ссылки на продукты и извлечь продукт, цену и описание. Тем не менее, это захватывает только одну страницу, я хочу повторить сканирование на всех страницах ex) страница 1, 2, 3 ... et c

GOTO flipkart.com/search?q=laptops&otracker=search&otracker1=search&marketplace=FLIPKART&as-show=on&as=off
CRAWL //div[2]/div[2]/div[1]/div//div[1]/a[@class="_2cLu-l"][1]
EXTRACT {
  "product": "//span[@class=\"_35KyD6\"][1]",
  "price": "//div[@class=\"_1vC4OE _3qQ9m1\"][1]",
  "description": "//div[@class=\"_3u-uqB\"][1]"
}

1 Ответ

1 голос
/ 26 января 2020

Вам необходимо добавить к paginator оператор [[xpath_for_nextpage_element]]. In this case the xpath for the "next page" link is // nav / a [11] / span . You wrap [[and]] around it and put it right after the CRAWL`. Итак, мы получаем: [[// nav / a [11] / span]]

GOTO flipkart.com/search?q=laptops&otracker=search&otracker1=search&marketplace=FLIPKART&as-show=on&as=off
CRAWL [[//nav/a[11]/span]] //div[2]/div[2]/div[1]/div//div[1]/a[@class="_2cLu-l"][1]
EXTRACT {
  "product": "//span[@class=\"_35KyD6\"][1]",
  "price": "//div[@class=\"_1vC4OE _3qQ9m1\"][1]",
  "description": "//div[@class=\"_3u-uqB\"][1]"
}

По сути, это теперь скребок, который будет собирать всю информацию о продукте.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...