Всегда ли хеш-функция лучше разбивает ваш набор данных, чем случайная выборка? - PullRequest
0 голосов
/ 29 апреля 2019

Я хочу разбить свой набор данных на поезд / проверку / тестирование. Литература говорит мне использовать хэш-функцию вместо случайной выборки, но я не понимаю, почему.

Например, если вы используете столбец даты / времени, а затем хешируете его для выборки, вы потеряете этот столбец.

Не лучше ли просто перетасовать данные, сделать столбец с отметкой 1,2,3,4 ~ и разделить его оттуда?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...