В приведенном вами примере цель состоит в том, чтобы подогнать линейную регрессию к обнаруженным значениям факторов, чтобы можно было использовать новый набор значений факторов для прогнозирования рейтинга. В такой конфигурации вам не нужна информация о том, какие образцы используются; единственная важная информация - это особенности обучения (баллы факторов) и рейтинг (этикетка обучения / тестирования). Чтобы узнать больше об этом c, взгляните на « Уменьшение размерности с использованием неотрицательной матричной факторизации для получения информации .»
Если вы включили mov ie ids и user идентификаторы в качестве функций, ваша регрессия попытается изучить те, которые либо добавят шум в модель, либо узнают, что низкие идентификаторы = более низкая оценка et c. Это возможно, особенно если эти идентификаторы расположены в каком-то порядке, о котором вы не знаете, например в хронологическом или по жанрам.
Примечание: вы можете использовать mov ie -specifi c или пользовательскую c информацию для построения модели, но у вас будет много-много измерений данных, и это, как правило, плохо исполнительские модели. Идея состоит в том, чтобы избежать проблемы размерности, сначала уменьшив размерность проблемного пространства. Факторизация матрицы - лишь один из многих способов сделать это. См., Например, PCA, LDA и word2ve c.