Я новичок в python и в настоящее время пытаюсь разработать систему рекомендаций на основе контента. Я читаю CSV-файл с около 60 000 строк и использую TfidfVectorizer.fit_transform, который создает размер матрицы (63098, 9081), а затем применяет linear_kernel, который затем вылетает и возвращает ошибку RuntimeError: nnz результата слишком велико.
tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 3), min_df=100, stop_words='english')
tfidf_matrix = tf.fit_transform(ds['description'])
result = linear_kernel(tfidf_matrix, tfidf_matrix)
Журналы показывают, что предполагаемый результат будет размером 20 ГБ. Есть ли способ разбить данные на части и как применить это в моей текущей структуре? Заранее спасибо.