У меня есть папка с предварительно извлеченными текстовыми файлами (данные из изображений, PDF-файлов, документов и т. Д.).Всего это около 222 МБ или 27 600 документов.
Папка скомпилирована в словарь:
data = {'file_name':'document text',...}
Затем я векторизирую словарь
X = vectorizer.fit_transform(documents.values())
X = X.toarray()
Экспорт 'X'в текстовый файл показывает, что это около 7 ГБ в размере!
Я пытаюсь преобразовать векторизованные данные в 2D-массив с PCA
pca = PCA(n_components=2)
two_dim = pca.fit_transform(X)
Я начинаю получать следующие ошибки:
two_dim = pca.fit_transform(vectorized_data)
array = np.array(array, dtype=dtype, order=order)
MemoryError
Насколько я знаю, я использую 64-битный Python.Я запустил $ py -0, и звездочка была рядом с 64-битной версией.
У меня 32 ГБ памяти, Intel i7-8700K