скопировать схему avro одного фрейма данных в другой - pyspark - PullRequest
1 голос
/ 03 августа 2020

У меня есть набор данных A со схемой A, а также набор данных B со схемой B. Оба набора данных A и B в основном похожи (имеют одинаковые столбцы, но типы данных различаются только для некоторых), но имеют незначительные отличия. столбец в наборе данных A имеет значение даты ('2020-08-03', представленное как строковый тип данных), тот же столбец в наборе данных B представлен как номер эпохи (длинный). Теперь мне нужно объединить эти два набора данных. Если мне нужно объединить, я должен использовать одинаковые типы данных в обоих наборах данных.

Не могли бы вы подсказать, как это сделать? возможно ли это?

1 Ответ

2 голосов
/ 03 августа 2020

Вы должны использовать sql функции для изменения типов столбцов. Например, вы можете преобразовать вашу строковую дату в unix метку времени:

df.withColumn("date", unix_timestamp("date", "yyyy-MM-dd"))

Затем вы можете использовать union с обоими фреймами данных.

...