Какой самый эффективный способ извлечь твиты, которые имеют определенный диалект? - PullRequest
0 голосов
/ 13 мая 2019

Я делаю классификацию текста для арабских диалектов, и мне нужно собрать данные.Поэтому я использую Twitter API для этого.

Однако проблема в следующем:

Мне нужно найти твиты с одинаковым диалектом.

Одно из решений, которое у меня есть:

- собирать твиты на основе определенных ключевых слов, которые имеют только один диалект

Одна проблема с этим решением:

КогдаЯ проверяю данные, конечно, точность будет высокой.Потому что тестовые данные будут содержать те ключевые слова, которые я использовал для сбора набора данных.

что я ищу

Нет ли другого способа обойти это смещение?

1 Ответ

0 голосов
/ 14 мая 2019

Обратите внимание, что это платформа для получения рекомендаций по конкретному коду, а не для обсуждения методологий.

Тем не менее, вы можете вручную собирать данные с этого конкретного диалекта, а также собирать другие твиты, а затем создавать классификатор, который предсказывает, к какой группе принадлежит твит.

...