Возможно, кто-то, кто имеет больше опыта в Spark, может помочь со следующими вопросами, связанными с сериализацией:: *
Будет ли следующее точное описание одного из путей сериализации, которые происходят в Spark:
RDD --> Bytestream (Java/Kryo)
Dataset --> Bytestream (Encoders)
В этом разговоре о RDD
, Dataframe
и Dataset
в искре, было заявлено, что RDD
по-прежнему является основной структурой данных, используемой в Spark, и, следовательно, даже Dataset
s основывается на RDD
Как следует интерпретировать это утверждение? Означает ли это, что путь сериализации для Dataset
:
Dataset -->(encoders) RDD --> Bytestream(Java/kryo)
Или кодировщики также работают при переводе RDD в Bytestream?