По сути, я сгенерировал полный набор прогнозируемых рейтингов, используя набор обучающих рейтингов. Отдельно от этой базы данных рейтингов тренировок у меня есть вторая непересекающаяся база данных, которая содержит больше рейтингов, которые не были известны на момент обучения, но для которых существуют прогнозы.
Я хочу сравнить сгенерированные прогнозируемые рейтинги с фактические рейтинги внутри моей тестовой базы данных.
Например, внутри моей тестовой базы данных может быть:
user ID, item ID, rating, timestamp
1,356,4.0,964980962
1,500,3.0,964981208
1,593,4.0,964983793
Внутри моей базы данных прогнозируемых рейтингов:
1,1,rating
1,2,rating
1,3,rating
....
1,355,rating
1,356,**RATING**
1,357,rating
Итак, из двух приведенных выше текстовых файлов я хочу сравнить реальные и сгенерированные оценки для пользователя 1, элемент 356, пользователя 1, элемент 500 и т. Д. c. через всех пользователей и элементы, присутствующие в обоих.
Я фактически уже написал что-то, что сделало это для меня в прошлом году, и не помню точно, что я сделал. Я помню, что мне пришлось загружать оба в память, а затем был очень лаконичный и простой способ, где я суммировал различия во вложенной структуре l oop.