Question

В моей среде есть R-скрипт, который выполняет задание MapReduce в инфраструктуре Hadoop.Как входные, так и выходные данные хранятся в HDFS.Для загрузки результатов и выполнения дальнейших операций из среды R используется функция from.dfs .Однако я не уверен, что это правильный подход.Я прочитал в документации следующее примечание:

Эти функции позволяют перемещать данные из оперативной памяти в файловую систему и обратно.Помните, что емкость этих двух носителей отличается на два или более порядка , поэтому преобразование будет иметь смысл только в определенных ситуациях . Эти функции не выполняют никакого контроля размера, поэтому ответственность лежит на пользователе .

Что это значит?
Чтоесли файл, созданный процессом mapreduce, имеет размер около 50 ГБ?Мне нужно 50 ГБ ОЗУ или файл каким-то образом разбит на страницы и буферизован?
Как лучше всего решить эту проблему?

Загрузка огромного файла в RHadoop с использованием from.dfs (библиотека rmr2)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Загрузка огромного файла в RHadoop с использованием from.dfs (библиотека rmr2)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы