Запись
hadoop в формате SequenceFile
in в паре ключ-значение (запись). Предположим, у нас есть большой неограниченный файл журнала. Hadoop разделит файл в зависимости от размера блока и сохранит их на нескольких узлах данных. Гарантируется ли, что каждая пара ключ-значение будет находиться в одном блоке? или у нас может быть случай, когда ключ находится в одном блоке на узле 1, а значение (или его части) во втором блоке на узле 2? Если у нас могут быть сплошные спины, то каково решение? маркеры синхронизации?
Еще один вопрос: пишет ли hadoop автоматически маркеры синхронизации или мы должны писать это вручную?