Как загрузить данные из серии страниц? - PullRequest
0 голосов
/ 23 ноября 2018

Пример:

  1. Я хочу загрузить все данные из https://www.example.com/api.php?id=X (фиктивный URL), где X - от 1 до 1000, и каждая страница представляет собой JSON, содержащий данные строки данных,(Я не хочу добавлять 1000 URL-адресов вручную, и OpenRefine, похоже, не позволяет вставлять список URL-адресов.)
  2. Я хочу загрузить информацию на страницах в
    https://en.wikipedia.org/wiki/Category:Lists_of_horror_films_by_year,, каждая из которых содержит одинТаблица HTML.
  3. Я хочу загрузить данные во всех таблицах со всех страниц в https://en.wikipedia.org/wiki/Template:Earthquakes_by_year,, каждая из которых содержит несколько таблиц HTML.

1 Ответ

0 голосов
/ 23 ноября 2018

OpenRefine - это не инструмент для просмотра веб-страниц.Он имеет функцию извлечения веб-страниц, но вы быстро столкнетесь с множеством ограничений.

В примере 1 вы можете подготовить свой список URL-адресов в таких программах для работы с электронными таблицами, как Excel или OpenOffice Calc.Импортируйте свой проект в OpenRefine и используйте функцию Add a column by fetching URL.

Пример 2 и 3: OpenRefine не может сканировать или переходить по ссылкам.Вам нужно будет:

  • извлечь список ссылок с каждой страницы, используя OpenRefine для
  • , создающий отдельный проект OpenRefine с одной ссылкой на строку
  • выборка для каждойстраница, использующая функцию Add a column by fetching URL
  • , анализирует HTML каждой страницы
...