Я делаю сложную обработку текста, используя R-файлы больших файлов текста.
Spark продолжает давать сбои - я думаю, что это вызвано увеличением объема памяти, поэтому кажется возможным сделать очень маленькие разделы, чтобы решить проблему (сбои не происходят с маленькими игрушечными данными).
Глядя на API-интерфейсы для других языков, я полагаю, что смогу установить количество разделов при чтении текста в фрейм данных spark или вызове какой-либо команды перераспределения.
Я посмотрел документацию и погуглил, но не могу найти версии этих функций для sparkR?
Большое спасибо.