Оптимизация записи записей для Hadoop - PullRequest
0 голосов
/ 04 января 2019

Кто-нибудь решил эту проблему эффективным способом?

Допустим, вы пишете в HDFS массивный файл .csv с миллионами записей.Обычно некоторые записи разделяются на физические блоки HDFS.При выполнении заданий MapReduce удаленная выборка будет происходить при наличии разделенной записи.

Было бы замечательно иметь возможность записывать данные более интеллектуальным способом, который позволил бы прекратить использованиевесь блок.Во время записи вы можете легко определить, сколько записей поместить в один блок, чтобы убедиться, что ни одна запись не разбита.При этом заданию MapReduce никогда не придется достигать удаленного блока.

Кто-нибудь видел способ сделать это?

...