npzeros + альтернатива itertuples - PullRequest
0 голосов
/ 02 июля 2018

У меня есть такой фрейм данных:

user_id anime_id    user_rating
0   1   20  7.808497
1   3   20  8.000000
2   5   20  6.000000
3   6   20  7.808497
4   10  20  7.808497

это похоже на базовый фрейм данных для игры с системой рекомендаций.

у меня было ~ 7 миллионов строк, я немного уменьшил кадр данных так:

df = df[df["user_id"] < 2000]

давайте напишем n_users, n_items, у меня было 1999 пользователей, конечно, и ~ 6000items

У меня 2 проблемы. если я хочу построить свой тренировочный набор данных так:

ratings = np.zeros((n_users, n_items))
for row in df.itertuples():
    ratings[row[1]-1, row[2]-1] = row[3]

с ratings = np.zeros((n_users, n_items)) я получил огромную матрицу, которая приводит к ошибка памяти .

У меня вторая проблема, если я отфильтрую несколько сэмплов, эта строка не возвращает ошибку памяти, но у меня IndexError

вот так: IndexError: index 950 is out of bounds for axis 0 with size 949

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...