Ну, вы запутались между этими двумя терминами:
Категориальный Данные - это вид данных, которые могут быть распределены по категориям между различными категориями, особенно более чем двумя классами или мультиклассами. Поиск по 20 группе новостей группы новостей.
Принимая во внимание,
Мешок слов - это техника хранения функций. Идентификация функций осуществляется на основе того, какой результат требуется. Существуют методы извлечения таких функций, как TF-IDF Vectorizer из sklearn, Word2Vec , Doc2Vec и т. Д. Но идентификация функций основана исключительно на наборе данных, который вы используете и приложение, для которого оно используется. Всегда помните, что если вы преобразуете текстовые данные в числовую форму или что-то еще, имена столбцов - это ваши объекты или измерения, а строки - это ваши образцы, экземпляры или записи.