Как выполнить IMPORTXML в Google Sheets с сайта с нумерацией страниц следующего клика / загрузки - PullRequest
0 голосов
/ 11 октября 2019

Я пытаюсь вычеркнуть список новостей для каждой темы, автора, метки времени и заголовка. На сайте перечислены 10 последних опубликованных историй по URL-адресу, который заканчивается на / all-story, со следующими 10 историями на / all-story / page / 2, следующими 10 на / all-story / page / 3 и т. Д. на.

У меня есть 3 формулы IMPORTXML, которые собирают нужные мне данные на первой странице:

=importxml("https://www.example.org/all-stories", "//div[@class='post-item-river__content___2Ae_0']/a")

=IMPORTXML("https://www.example.org/all-stories","//li[@class='post-item-river__wrapper___2c_E- with-image']/div/div")

=IMPORTXML("https://www.example.org/all-stories","//li[@class='post-item-river__wrapper___2c_E- with-image']/div/h3")

Как мне повторить это на странице / 2, странице / 3 и так далее?

Я не видел никакого способа сделать это в Google Sheets - эта своего рода похожая история попытка добавления & = ROW () к URL в формуле. Но когда я попробовал это, Листы интерпретировали это как часть URL и по праву ничего не возвращали.

1 Ответ

0 голосов
/ 15 октября 2019

попробуйте простой массив, например:

={IMPORTXML("https://www.sciencenews.org/all-stories", "//div[@class='post-item-river__content___2Ae_0']");
  IMPORTXML("https://www.sciencenews.org/all-stories/page/2", "//div[@class='post-item-river__content___2Ae_0']");
  IMPORTXML("https://www.sciencenews.org/all-stories/page/3", "//div[@class='post-item-river__content___2Ae_0']")}

enter image description here

...