У меня странные проблемы при работе Spark с sparklyr.
В настоящее время я на производственном сервере R, подключаюсь к моему Spark Cluster в режиме клиента через spark://<my server>:7077
и затем извлекаю данные из MS SQL Server.
Недавно я смог сделать это без проблем, но недавно мне дали кластер большего размера, и теперь у меня проблемы с памятью.
Сначала я получал необъяснимые ошибки «нехватки памяти» во времямоя обработка.Это происходило несколько раз, и затем я начал получать сообщения «Недостаточно памяти, не удалось создать новый поток».Я проверил количество потоков, которые я использовал, по сравнению с максимальным значением для моего пользователя как на рабочем сервере R, так и на сервере Spark, и я не был близок к максимальному.
Я перезапустил свой главный узел и теперь получаю:
# There is insufficient memory for the Java Runtime Environment to continue.
# Cannot create GC thread. Out of system resources.
Какого черта происходит ??
Вот мои характеристики:
- Spark Standaloneработает через root
пользователя.
- Spark версии 2.2.1
- Sparklyr версии 0.6.2
- Red Hat Linux