Моделирование темы - разделение данных (перекрестная проверка) - PullRequest
0 голосов
/ 12 декабря 2018

Почему случайное разделение данных в тематическом моделировании не является хорошим подходом?

Предположим, типичный пример MNIST: если я пропущу поезд с номерами от 0 до 8 и номером 9 в тестовом наборе(предположим, что пока нет установленной валидации), моя модель не сможет правильно предсказать число 9 в моем наборе тестов.

Разве разделение статей для моделирования темы не является аналогичной проблемой, поскольку темы конечны?Как моя модель может предсказать тему, которая еще не была раскрыта?Мне интересно это из-за этого объяснения от Google, где случайное разделение не всегда хорошая идея.

https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/example

...