Загрузка огромного файла в RHadoop с использованием from.dfs (библиотека rmr2) - PullRequest
0 голосов
/ 02 января 2019

В моей среде есть R-скрипт, который выполняет задание MapReduce в инфраструктуре Hadoop.Как входные, так и выходные данные хранятся в HDFS.Для загрузки результатов и выполнения дальнейших операций из среды R используется функция from.dfs .Однако я не уверен, что это правильный подход.Я прочитал в документации следующее примечание:

Эти функции позволяют перемещать данные из оперативной памяти в файловую систему и обратно.Помните, что емкость этих двух носителей отличается на два или более порядка , поэтому преобразование будет иметь смысл только в определенных ситуациях . Эти функции не выполняют никакого контроля размера, поэтому ответственность лежит на пользователе .

  1. Что это значит?
  2. Чтоесли файл, созданный процессом mapreduce, имеет размер около 50 ГБ?Мне нужно 50 ГБ ОЗУ или файл каким-то образом разбит на страницы и буферизован?

  3. Как лучше всего решить эту проблему?

...