У меня есть набор данных около 40 000 твитов. У меня также есть 5 текстовых файлов, соответствующих различным категориям, в которые я хотел бы классифицировать твиты (путешествия, работа, отдых и т. Д. c.). Каждый из этих текстовых файлов содержит определенные конкретные c ключевые слова для категории.
Например, , текстовый файл для отпуска ( vacation.txt ) содержит рейс, пляж, отель и т. Д. c.
Я бы хотел бы пометить мой набор данных, сопоставив ключевые слова, содержащиеся в этих текстовых файлах, с соответствующей категорией.
Например, , твит, содержащий слово «пляж», будет помечен как отпуск.
Я использую python для всего моего анализа. Твиты содержатся в .csv файле .
Кроме того, какие еще интересные подходы я могу использовать для маркировки и классификации моих данных? Я понимаю, что использование ключевых слов не является наиболее эффективным или точным.