Только для информации, потоковая передача hadoop поддерживает двоичный ввод / вывод.
Найдите параметр -io rawbytes .
Я создал прототип, который мог использовать SequenceFile (я думаю - это было давно).
Я отказался от этой идеи, потому что мне пришлось десериализовать Java Hadoop * Writables из потока. И C # BinaryReader
использует кодирование с прямым порядком байтов, в то время как Java использует порядок с прямым порядком байтов. Итак, картограф стал сложнее, чем должно быть.
В любом случае, это возможно.