Я делаю классификацию текста для арабских диалектов, и мне нужно собрать данные.Поэтому я использую Twitter API для этого.
Однако проблема в следующем:
Мне нужно найти твиты с одинаковым диалектом.
Одно из решений, которое у меня есть:
- собирать твиты на основе определенных ключевых слов, которые имеют только один диалект
Одна проблема с этим решением:
КогдаЯ проверяю данные, конечно, точность будет высокой.Потому что тестовые данные будут содержать те ключевые слова, которые я использовал для сбора набора данных.
что я ищу
Нет ли другого способа обойти это смещение?