GridSearchCV для KNN и (большая) разреженная матрица вызывает MemoryError - PullRequest
0 голосов
/ 18 октября 2018

Я выполняю настройку параметров в scikit-learn, используя GridSearchCV для KNeighborsClassifier и набор данных из 18000 строк в разреженном матричном формате - включая текстовые объекты, созданные с использованием TfIdfVectorizer (с min_df = 50, который уменьшает размерностьдо 9230 слов).Поиск в сетке выполняется довольно долго, но завершается с ошибкой после нескольких итераций с MemoryError.Значения параметров для поиска по сетке: n_neighbors = 1, 3, 10. Я думаю, что сбой происходит, когда значение этого параметра равно 10. Есть ли способ (кроме использования более низких значений для этого параметра), чтобы избежать потребления всей памяти?Нужно ли считать 10 «высоким» значением для такого рода проблем?

...