Основанная на ключевых словах классификация твитов - PullRequest
0 голосов
/ 07 апреля 2020

У меня есть набор данных около 40 000 твитов. У меня также есть 5 текстовых файлов, соответствующих различным категориям, в которые я хотел бы классифицировать твиты (путешествия, работа, отдых и т. Д. c.). Каждый из этих текстовых файлов содержит определенные конкретные c ключевые слова для категории.

Например, , текстовый файл для отпуска ( vacation.txt ) содержит рейс, пляж, отель и т. Д. c.

Я бы хотел бы пометить мой набор данных, сопоставив ключевые слова, содержащиеся в этих текстовых файлах, с соответствующей категорией.

Например, , твит, содержащий слово «пляж», будет помечен как отпуск.

Я использую python для всего моего анализа. Твиты содержатся в .csv файле .

Кроме того, какие еще интересные подходы я могу использовать для маркировки и классификации моих данных? Я понимаю, что использование ключевых слов не является наиболее эффективным или точным.

1 Ответ

0 голосов
/ 07 апреля 2020

Там может быть несколько способов.

Если вы просто делаете поиск по ключевым словам, чтобы пометить данные, то я не думаю, что это лучший подход.

  1. Ключевой подход. Вы посчитаете количество совпадающих ключевых слов, а затем назначите метки соответствующим образом, но здесь вам придется работать над выбором функции, чтобы убедиться, что модель не смещена при поиске по ключевым словам. Лучше сопоставить ключевое слово для меток, а затем создать облако слов, чтобы увидеть, не являются ли эти ключевые слова единственными, которые идут сверху. Вы можете использовать tf-idf, векторизацию счета, а затем встраивание, такое как перчатка или быстрый текст или, возможно, BERT.

  2. Кластерный подход. Вы держите свои ключевые слова и метки в стороне и на основе количества меток создаете такое количество кластеров, визуализируете эти кластеры и анализируете, сможете ли вы найти перекрытие меток, которые были назначены в подходе 1.

  3. Используйте Активное обучение. Это немного сложно, но здесь вы назначаете ярлыки некоторым, а затем позволяете системе анализировать эти разреженные ярлыки и получать кластеры и уточнять их на основе обратной связи. Это больше похоже на человека в концепции l oop.

Дайте мне знать, если вы хотите получить более подробный ответ по любому из вышеперечисленных или более подходов.

...