Очистка данных от Twitch - PullRequest
0 голосов
/ 23 апреля 2019

Я пытаюсь выяснить, сколько последователей есть в каждой игре на Twitch. К сожалению, эта информация недоступна из Twitch API. Когда я иду в любую игру (например, Mortal Kombat 11 ), я вижу "115,175 подписчиков · 199,041 зрителей". Тем не менее, когда я иду в «Просмотр источника», эта информация не там. Я пытался использовать phantomjs для открытия сайта, но до сих пор не смог понять, как сделать эту часть.

Как мне определить количество подписчиков и зрителей для данной игры на Twitch?

(Решения в R предпочтительны, но не обязательны)

1 Ответ

0 голосов
/ 24 апреля 2019

Я создал веб-скребок несколько месяцев назад, используя axios и cheerio .

Вы можете получить всю HTML-страницу с помощью axios с помощью запроса get, а затем с помощью cheerio начать поиск информации, которую вы хотите в этом случае для подписчиков, cheerio походит на jquery на стороне сервера.

Небольшой пример:

import axios from 'axios';
import cheerio from 'cheerio';
import _ from 'lodash';

async function getStats () {
  const html = await axios.get('http://www.espn.com/nba/team/_/name/ny');
  const $ = cheerio.load(html.data);
  const wonLooseRatio = $('.ClubhouseHeader__Record').children().first().text().trim();

  console.log(wonLooseRatio); // 17-65
}

изображение иллюстрирует информацию, которую при утилизации.

the image illustrates the information that in scrapping.

также имейте в видучто некоторые сайты считают использование веб-страниц незаконным или противоречащим их политике, убедитесь, что вы читаете подергиванные положения и условия, приведенный выше пример носит исключительно образовательный характер.

Надеюсь, это поможет.

...