Question

У меня есть набор данных около 40 000 твитов. У меня также есть 5 текстовых файлов, соответствующих различным категориям, в которые я хотел бы классифицировать твиты (путешествия, работа, отдых и т. Д. c.). Каждый из этих текстовых файлов содержит определенные конкретные c ключевые слова для категории.

Например, , текстовый файл для отпуска ( vacation.txt ) содержит рейс, пляж, отель и т. Д. c.

Я бы хотел бы пометить мой набор данных, сопоставив ключевые слова, содержащиеся в этих текстовых файлах, с соответствующей категорией.

Например, , твит, содержащий слово «пляж», будет помечен как отпуск.

Я использую python для всего моего анализа. Твиты содержатся в .csv файле .

Кроме того, какие еще интересные подходы я могу использовать для маркировки и классификации моих данных? Я понимаю, что использование ключевых слов не является наиболее эффективным или точным.

Yash Kumar Atri · Answer 1 · 07 апреля 2020

Там может быть несколько способов.

Если вы просто делаете поиск по ключевым словам, чтобы пометить данные, то я не думаю, что это лучший подход.

Ключевой подход. Вы посчитаете количество совпадающих ключевых слов, а затем назначите метки соответствующим образом, но здесь вам придется работать над выбором функции, чтобы убедиться, что модель не смещена при поиске по ключевым словам. Лучше сопоставить ключевое слово для меток, а затем создать облако слов, чтобы увидеть, не являются ли эти ключевые слова единственными, которые идут сверху. Вы можете использовать tf-idf, векторизацию счета, а затем встраивание, такое как перчатка или быстрый текст или, возможно, BERT.
Кластерный подход. Вы держите свои ключевые слова и метки в стороне и на основе количества меток создаете такое количество кластеров, визуализируете эти кластеры и анализируете, сможете ли вы найти перекрытие меток, которые были назначены в подходе 1.
Используйте Активное обучение. Это немного сложно, но здесь вы назначаете ярлыки некоторым, а затем позволяете системе анализировать эти разреженные ярлыки и получать кластеры и уточнять их на основе обратной связи. Это больше похоже на человека в концепции l oop.

Дайте мне знать, если вы хотите получить более подробный ответ по любому из вышеперечисленных или более подходов.

Основанная на ключевых словах классификация твитов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Основанная на ключевых словах классификация твитов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы