Типы данных и то, как fastminer подчеркивает их - PullRequest
0 голосов
/ 07 марта 2019

Совершенно новый для быстрой разработки и науки о данных.

Я импортировал данные (они очень широкие, поэтому для классификации всех типов данных потребовалось некоторое время). Я поместил данные в случайный лес, и он, кажется, подчеркнул неправильные вещи. Я считаю, что это связано с неправильной классификацией типов данных. Кажется, я не могу найти хорошую документацию по типам данных и ищу объяснение того, как quickminer смотрит на каждый.

Например, у меня есть несколько столбцов с 90% пробелами, и пара их заполнила. Я пометил это как «номинальный», и быстрый майнер сильно утяжелил этот столбец. Я хотел, чтобы он взвешивал столбцы дат больше, так как я пытаюсь предсказать цикл. Любая помощь или понимание очень ценится!

Некоторые из доступных типов данных:
Номинал
Полиномиальной
бином
даты
текст
и т.д.

1 Ответ

0 голосов
/ 18 марта 2019

Я не уверен на 100%, правильно ли я понял ваш вопрос, но ни RapidMiner, ни алгоритм RandomForest не подчеркивали определенный тип данных над другим. Поэтому, если алгоритм придает большее значение номинальным столбцам, это объясняется тем, что ваш пример сильно отделен.

Различные типы данных в RapidMiner позволяют разрешать, запрещать определенные операции. Классическим примером являются номера телефонов. Если они хранятся как действительные числа, вы можете получить что-то вроде квадратного корня или средних значений, что не имеет смысла. Поэтому хранить их как String (или Nominal) имеет больше смысла.

Если вы хотите исключить определенные атрибуты, вы можете попробовать выбрать функцию или метод уменьшения размерности (например, PCA или Удалить коррелированные , Удалить бесполезные операторы.

Кроме того, не стесняйтесь задавать или пересылать вопросы на форуме сообщества RapidMiner .

...