Как вытащить данные со страницы Википедии - PullRequest
0 голосов
/ 03 ноября 2018

Каков наилучший способ извлечь данные из таблицы на этой странице википедии, используя только JavaScript?

https://en.wikipedia.org/wiki/Most_common_words_in_Spanish

Я пытался использовать следующий код для получения JSON, но он не сработал. Затем, как только я получу JSON, как мне получить данные из таблицы?

fetch('https://en.wikipedia.org/wiki/Most_common_words_in_Spanish')
  .then(function(response) {
    return response.json();
  })
  .then(function(response){
  	console.log(response)
  })

1 Ответ

0 голосов
/ 09 ноября 2018

Этот код получит вам таблицы в виде HTML-узлов:

var url = 'https://en.wikipedia.org/w/api.php?action=parse&format=json&origin=*&page=Most%20common%20words%20in%20Spanish';

fetch(url)
  .then(function(response) {
    return response.json();
  })
  .then(function(response){
    html_code = response["parse"]["text"]["*"];
    parser = new DOMParser();
    html = parser.parseFromString(html_code, "text/html");
    var tables = html.querySelectorAll(".wikitable");
    console.log(tables);
  })

Я использую MediaWiki API , чтобы получить html страницы Википедии в качестве ответа json. Вы можете найти документацию для этого типа запроса API здесь .

...