У меня есть текстовые данные двоичной классификации, в которых есть 10 текстовых объектов.
Я использую различные методы, такие как Bag of words, TFIDF и т. Д., Чтобы преобразовать их в числовые.
Я использую hstack () , чтобы снова сложить все эти функции после обработкиих.
После преобразования их в числовой объект у каждого объекта теперь есть большое количество столбцов, следовательно, после преобразования мой набор данных содержит около 3000 столбцов.
У меня вопрос, когда я подгоняю этот набор данных к решениюдревовидный классификатор (sklearn), как классификатор распознает столбцы, принадлежащие определенной функции?
Например, первый 51 столбец из 3000 принадлежит пакету слов US_states.
Теперь, как DT распознает его?
PS: данные перед обработкой находятся в пандахФрейм данных.
После обработки это массив с накоплением вводится в классификатор.