Как извлечь твиты, размещенные только у местных жителей? - PullRequest
0 голосов
/ 06 января 2019

Я занимаюсь анализом настроений местных жителей в отношении транспортных услуг в Гонконге. Я использовал API Twitter для сбора твитов. Однако, поскольку моей целью исследования являются местные жители Гонконга, твиты, отправленные, например, путешественниками, должны быть удалены. Может ли кто-нибудь дать мне несколько советов о том, как извлечь твиты, опубликованные местными жителями, учитывая большой объем данных в Твиттере? Моя идея сейчас состоит в том, чтобы создать словарь, который содержит слова, относящиеся к путешествиям, и использовать эти слова для фильтрации твитов. Но может показаться, что не работает

Любые советы и идеи приветствуются! Спасибо!

1 Ответ

0 голосов
/ 06 января 2019

Есть три основных способа сделать это.

  1. Язык. Если пользователь пишет в твиттере на кантонском диалекте - или на другом местном языке - вероятность того, что он путешественник, будет меньше, чем, скажем, на русском.
  2. Местоположение пользователя. Если у пользователя есть местоположение в его профиле, вы можете увидеть, находится ли оно в Гонконге.
  3. Пользовательский часовой пояс. Если часовой пояс пользователя совпадает с часовым поясом HK, он может быть локальным.

Все это очень нечетко.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...