Question

Я делаю классификацию текста для арабских диалектов, и мне нужно собрать данные.Поэтому я использую Twitter API для этого.

Однако проблема в следующем:

Мне нужно найти твиты с одинаковым диалектом.

Одно из решений, которое у меня есть:

- собирать твиты на основе определенных ключевых слов, которые имеют только один диалект

Одна проблема с этим решением:

КогдаЯ проверяю данные, конечно, точность будет высокой.Потому что тестовые данные будут содержать те ключевые слова, которые я использовал для сбора набора данных.

что я ищу

Нет ли другого способа обойти это смещение?

Emil · Answer 1 · 14 мая 2019

Обратите внимание, что это платформа для получения рекомендаций по конкретному коду, а не для обсуждения методологий.

Тем не менее, вы можете вручную собирать данные с этого конкретного диалекта, а также собирать другие твиты, а затем создавать классификатор, который предсказывает, к какой группе принадлежит твит.

Какой самый эффективный способ извлечь твиты, которые имеют определенный диалект?

Однако проблема в следующем:

Одно из решений, которое у меня есть:

Одна проблема с этим решением:

что я ищу

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой самый эффективный способ извлечь твиты, которые имеют определенный диалект?

Однако проблема в следующем:

Одно из решений, которое у меня есть:

Одна проблема с этим решением:

что я ищу

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы