Ошибка в RStudio при запуске дерева решений (mac) - PullRequest
0 голосов
/ 20 ноября 2018

Я использую дерево решений CART на обучающем наборе, который я разложил с использованием quanteda для обычной задачи анализа текста.Результирующий DFM из токенизации был превращен в фрейм данных и дополнен атрибутом класса, для которого я прогнозирую.

Как и многие DFM, таблица очень широка (33 тыс. Столбцов), но содержит только около 5500 строк документов.Вызов rpart на моем тренировочном наборе возвращает ошибку переполнения стека.

Если это важно, чтобы помочь увеличить скорость вычислений, я использую библиотеку doSNOW, чтобы я мог запустить модель на 3 из 4 моих ядер параллельно.

Я посмотрел на этот ответ , но не могу понять, как сделать эквивалент на моей рабочей станции Mac, чтобы увидеть, будет ли работать то же самое решение для меня.Есть вероятность, что даже если я увеличу размер ppsize RStudio, я все равно могу столкнуться с этой ошибкой.

Итак, мой вопрос: как мне увеличить максимальный размер RStudio на mac или, в более общем смысле, как я могу исправить это переполнение стека, чтобы я мог запустить свою модель?

Спасибо!

1 Ответ

0 голосов
/ 02 декабря 2018

В конце концов, я обнаружил, что у Mac нет такой же опции командной строки, поскольку версия RStudio для Mac по умолчанию использует всю доступную память.

Таким образом, я исправил это путем уменьшения сложности задачи за счет уменьшения разреженности.Я очистил матрицу термина документа, удалив все жетоны, которых не было, по крайней мере, в 5% корпуса.Этого было достаточно, чтобы уменьшить матрицу с 33 тыс. Столбцов до гораздо более управляемых 3 тыс. Столбцов, в то же время приводя к весьма репрезентативному DFM.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...