Я разрабатываю наивный байесовский классификатор, используя следующий набор данных (https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data).
Я пытаюсь найти классификатор, который позволяет мне прогнозировать пол пользователя на основе текста в твиттере, описания профиля в твиттере и цвета бокового профиля в твиттере.
Поскольку текстовые атрибуты Twitter и атрибуты описания профиля представляют собой строковые столбцы, мне необходимо предварительно обработать данные перед обучением классификатору. Для этого я увидел, что во многих примерах используется узел «Строки в документ». Затем этот новый столбец Document предварительно обрабатывается другим узлом, таким как фильтр чисел, преобразователь регистра и т. Д.
Поскольку я хочу использовать более одного атрибута для обучения моего классификатора, что мне делать? Должен ли я конвертировать в документы оба строковых атрибута (текст в твиттере и описание профиля)?