Дубликат: Как представить текст для классификации в weka?
Что будет входом для классификатора, если мои данные будут электронной почтой, то есть текстовыми данными?Каковы будут атрибуты / набор функций в электронной почте, которые мне необходимо учитывать для выполнения классификации на основе темы обсуждения?
Обычно входные данные преобразуются с использованием TF-IDF в разреженные векторы.