У меня есть набор данных (15 ГБ): 72 миллиона записей и 26 функций. Я хотел бы сравнить 7 контролируемых моделей ML (проблема классификации): SVM, случайный лес, дерево решений, наивный байесовский анализ, ANN, KNN и XGBoosting. Я создал выборочный набор из 7,2 миллиона записей (10% от всего набора). Запуск моделей на выборке (даже выбор функций) уже является проблемой. У него очень долгое время обработки. Сейчас я использую только RStudio.
Я искал ответ на свои вопросы в течение нескольких дней. Я пробовал следующие вещи: - data.table - все еще недостаточно для сокращения времени обработки - sparklyr - не может скопировать мой набор данных, потому что он слишком большой
Я ищу бесплатное решение моей проблемы. Может кто-нибудь помочь мне?