У меня большая база данных размером 50 ГБ, которая состоит из выдержек из 486 000 диссертаций по 780 специальностям.
В научных целях необходимо проводить обучение на основе этих данных. Но, увы, ресурсы ограничены мобильным процессором, 16 ГБ памяти (+ 16 ГБ SWAP)
Анализ проводился с использованием набора из 40 000 элементов (10% от базовой) (4,5 ГБ) и классификатора SGDClassifier, а потребление памяти составило около 16-17 ГБ.
Поэтому я прошу сообщество помочь в этом.
в настоящее время мой код похож
text_clf = Pipeline([
('count', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier(n_jobs=8),)
],
)
texts_train, texts_test, cat_train, cat_test = train_test_split(texts, categories_ids, test_size=0.2)
text_clf.fit(texts_train, cat_train)
Поэтому я прошу совета о том, как оптимизировать этот процесс, чтобы я мог обработать всю базу данных.