Я новичок в Spark и проходил через Dataframes и Dataset.Я пытался понять разницу между ними, но я запутался.
Я начал здесь и обнаружил, что абстракция RDD произошла в следующем порядке.
СДР (Spark1.0) -> Кадр данных (Spark1.3) -> Набор данных (Spark1.6)
Q.1 По ссылке здесь , здесь написано Фрейм данных является псевдонимом для Набор данных [ Строка ], т.е. Набор данных типа Строка ,Если Dataframe был абстракцией RDD , которая была сделана первой, значит ли это, что Dataset уже существовал из Spark1.3 или когда Spark1.6 был разработан Датафрейм был переопределен как Набор данных [Строка] ?
Q.2 По ссылке здесь говорится:
"Набор данных - это строго типизированная коллекция доменных именобъекты, которые могут быть преобразованы параллельно с использованием функциональных или реляционных операций. Каждый набор данных также имеет нетипизированное представление, называемое DataFrame, который является набором данных Row. "
If, Dataframe на самом деле набор данных [Row] почему Dataframe называется нетипизированным?Разве тип здесь не должен быть Строка [определено здесь ]?
Q.3 Также, если Dataframe является Набор данных [Row] , тогда зачем определять Dataframe отдельно?Кроме того, каждая операция Dataset также должна вызываться в Dataframe.Если приведенное выше утверждение не соответствует действительности или является чем-то верным, пожалуйста, не стесняйтесь отвечать.
Если эти вопросы кажутся общими, пожалуйста, дайте мне знать.Я буду редактировать их по мере необходимости.