Я пытаюсь использовать knn в R (использовал несколько пакетов (knnflex
, class
)), чтобы предсказать вероятность дефолта на основе 8 переменных. Набор данных составляет около 100 тыс. Строк из 8 столбцов, но моя машина, похоже, испытывает трудности с выборкой из 10 тыс. Строк. Любые предложения для выполнения knn на наборе данных> 50 строк (то есть iris
)?
EDIT:
Для уточнения есть пара вопросов.
1) Примеры в пакетах class
и knnflex
немного неясны, и мне было любопытно, была ли какая-то реализация, похожая на пакет randomForest, где вы предоставляете ему переменную, которую вы хотите предсказать, и данные, которые хотите использовать для обучения модели:
RF <- randomForest(x, y, ntree, type,...)
затем развернитесь и используйте модель для прогнозирования данных, используя набор тестовых данных:
pred <- predict(RF, testData)
2) Я не совсем понимаю, почему knn
хочет обучить И проверить данные для построения модели. Из того, что я могу сказать, пакет создает матрицу ~ до nrows(trainingData)^2
, которая также является верхним пределом размера прогнозируемых данных. Я создал модель, используя 5000 строк (выше этого я получил ошибки выделения памяти) и не смог предсказать наборы тестов> 5000 строк. Таким образом, мне нужно либо:
а) найти способ использовать> 5000 строк в тренировочном наборе
или
б) найти способ использовать модель на полных 100 тыс. Строк.