В моей среде есть R-скрипт, который выполняет задание MapReduce в инфраструктуре Hadoop.Как входные, так и выходные данные хранятся в HDFS.Для загрузки результатов и выполнения дальнейших операций из среды R используется функция from.dfs .Однако я не уверен, что это правильный подход.Я прочитал в документации следующее примечание:
Эти функции позволяют перемещать данные из оперативной памяти в файловую систему и обратно.Помните, что емкость этих двух носителей отличается на два или более порядка , поэтому преобразование будет иметь смысл только в определенных ситуациях . Эти функции не выполняют никакого контроля размера, поэтому ответственность лежит на пользователе .
- Что это значит?
Чтоесли файл, созданный процессом mapreduce, имеет размер около 50 ГБ?Мне нужно 50 ГБ ОЗУ или файл каким-то образом разбит на страницы и буферизован?
Как лучше всего решить эту проблему?