Должен ли я разделить свои данные между тестированием и обучением, если меня волнует только важность функций? - PullRequest
0 голосов
/ 09 февраля 2020

Basi c вопрос, но у меня есть некоторые данные, и я пытаюсь выяснить, какие функции являются наиболее важными в прогнозировании результата целевой переменной. Я не планирую делать прогнозы с данными. Учитывая это, я должен все еще разделять данные на обучение и тестирование, и если так, почему? Спасибо!

1 Ответ

0 голосов
/ 09 февраля 2020

IMO, если вы просто пытаетесь определить, какие функции наиболее точно определяют ваши данные, с помощью ЛЮБОГО метода - например, кластеризация или хи-квадрат и т. Д. c. Тогда нет, вам не нужно разбивать ваш набор данных. Однако, если вы не доверяете некоторым методам выбора объектов и пытаетесь найти лучший - вам следует разделить ваши данные и проверить точность этих моделей выбора функций на основе данных о поездах внутри данных тестирования. .

Удачи!

...