KNIME - узел строк в документ по нескольким атрибутам - PullRequest
0 голосов
/ 01 мая 2018

Я разрабатываю наивный байесовский классификатор, используя следующий набор данных (https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data).

Я пытаюсь найти классификатор, который позволяет мне прогнозировать пол пользователя на основе текста в твиттере, описания профиля в твиттере и цвета бокового профиля в твиттере. Поскольку текстовые атрибуты Twitter и атрибуты описания профиля представляют собой строковые столбцы, мне необходимо предварительно обработать данные перед обучением классификатору. Для этого я увидел, что во многих примерах используется узел «Строки в документ». Затем этот новый столбец Document предварительно обрабатывается другим узлом, таким как фильтр чисел, преобразователь регистра и т. Д.

Поскольку я хочу использовать более одного атрибута для обучения моего классификатора, что мне делать? Должен ли я конвертировать в документы оба строковых атрибута (текст в твиттере и описание профиля)?

1 Ответ

0 голосов
/ 28 августа 2018

Я могу предложить вам создать метанод со всей необходимой вам предварительной обработкой, а затем скопировать этот метанод для предварительной обработки каждого столбца строки, который вы считаете полезным для вашей модели. Затем просто используйте узел извлечения данных и объедините предварительно обработанные строковые столбцы с узлом приложения столбцов в новую таблицу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...