Поскольку форматы с определением внешней схемы, такие как буфер протокола, занимают больше места, чем встроенная сериализация Java, которая создает очень подробный файл.
HDFS может использовать другой формат для хранения данных. Обычно предпочтительны форматы, которые обеспечивают лучшую эффективность использования пространства, но не слишком загружают процессор. Некоторые форматы предназначены для конкретной цели, которая помогает в обработке данных:
- Avro , который ориентирован на строки
- Паркет , ориентированный на колонну
java.io.NotSerializableException: java.lang.Thread
исключение показывает, что вы пытаетесь сериализовать Thread
, который не реализует Serializable