Чтобы дать действительно хороший ответ на вопрос, было бы полезно узнать, какая классификация вас интересует: на основе жанра, автора, настроения и т. Д. Например, для стилистической классификации важны функциональные слова,для классификации, основанной на содержании, они являются просто шумом и обычно отфильтровываются с использованием списка стоп-слов.Если вас интересует классификация, основанная на содержании, вы можете использовать схему взвешивания, такую как термин «частота / обратная частота документа», (1), чтобы дать слова, которые типичны для документа и сравнительно редки во всей коллекции текста.вес.Это предполагает модель вашего текста в векторном пространстве, которая представляет собой пакет слов, представляющий текст.(См. Википедию по Vector Space Modell и tf / idf ). Обычно tf / idf даст лучшие результаты, чем схема двоичной классификации, которая содержит только информацию о том, существует ли термин в документе.
Этот подход настолько распространен и распространен, что библиотеки машинного обучения, такие как Python scikit-learn, предлагают удобные методы, которые преобразуют сбор текста в матрицу, используя tf / idf в качестве схемы взвешивания.