Классификация текста + многозначный наивный байесовский + Python: я должен стандартизировать и / или масштабировать свои данные? - PullRequest
0 голосов
/ 08 октября 2018

Я работаю над проблемой классификации текста на английском языке.Проблема объясняется ниже:

У меня есть набор данных событий, который содержит четыре столбца - название события, описание события, категория события, category_id.В наборе данных содержится около 32 категорий, таких как путешествия, спорт, образование, бизнес и т. Д. Я должен классифицировать каждое событие по категории в зависимости от его имени и описания.

Это то, что я сделал такfar:

  1. Удалены все строки, для которых запись category_id пуста, удалены дублирующиеся строки.
  2. Удалены нечитаемые символы, нежелательные пробелы, слова длиной не более двух и сделаны все символы.строчные буквы.
  3. Удалил стоп-слова и выполнил определение слов.
  4. Разделил данные на набор поездов и набор тестов.
  5. Получил пакет слов из набора поездов.
  6. Произведен пакет слов из набора тестов.
  7. Найден оптимальный альфа для аддитивного сглаживания с использованием Multinomial Naive Bayes .
  8. Наконец, предсказанный класс с оптимальной альфа.

Теперь я хочу знать:

 1. Should I apply standardization and/or scaling to my data?
 2. If yes, then in which step should I apply it?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...