Я работаю над проблемой классификации текста на английском языке.Проблема объясняется ниже:
У меня есть набор данных событий, который содержит четыре столбца - название события, описание события, категория события, category_id.В наборе данных содержится около 32 категорий, таких как путешествия, спорт, образование, бизнес и т. Д. Я должен классифицировать каждое событие по категории в зависимости от его имени и описания.
Это то, что я сделал такfar:
- Удалены все строки, для которых запись category_id пуста, удалены дублирующиеся строки.
- Удалены нечитаемые символы, нежелательные пробелы, слова длиной не более двух и сделаны все символы.строчные буквы.
- Удалил стоп-слова и выполнил определение слов.
- Разделил данные на набор поездов и набор тестов.
- Получил пакет слов из набора поездов.
- Произведен пакет слов из набора тестов.
- Найден оптимальный альфа для аддитивного сглаживания с использованием Multinomial Naive Bayes .
- Наконец, предсказанный класс с оптимальной альфа.
Теперь я хочу знать:
1. Should I apply standardization and/or scaling to my data?
2. If yes, then in which step should I apply it?