Как Had oop работает с файлами без структуры ключ-значение - PullRequest
0 голосов
/ 04 марта 2020

Я новичок в Had oop и изучаю парадигму сокращения карт. В следующем уроке сказано, что в подходе сокращения карт обычно применяются две операции (map и redu), основанные на значении ключа файла. Я знаю, что oop имел дело также с неструктурированными данными, поэтому мне было интересно, как он справится с уменьшением карты в случае неструктурированных данных.

1 Ответ

0 голосов
/ 04 марта 2020

Взять пример текста

Hello
World

Есть две строки текста, но, естественно, есть ключ и значение, смещение файла и сама строка. Если вы сделаете шестнадцатеричный дамп файла, вы увидите что-то вроде этого

0x0 Hello
0x6 World

Вот так HDFS знает, как разбивать текстовые файлы на блоки, и таким образом mapreduce (и другие механизмы времени выполнения) можно использовать для чтения эти данные.

Если вы храните видео, изображения, аудио, документы в формате PDF и т. д. c, то вы должны реализовать свой собственный считыватель InputFormat, чтобы определить, как байты файла должны быть структурированы и распараллелены, если вообще

...