Почему случайное разделение данных в тематическом моделировании не является хорошим подходом?
Предположим, типичный пример MNIST: если я пропущу поезд с номерами от 0 до 8 и номером 9 в тестовом наборе(предположим, что пока нет установленной валидации), моя модель не сможет правильно предсказать число 9 в моем наборе тестов.
Разве разделение статей для моделирования темы не является аналогичной проблемой, поскольку темы конечны?Как моя модель может предсказать тему, которая еще не была раскрыта?Мне интересно это из-за этого объяснения от Google, где случайное разделение не всегда хорошая идея.
https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/example