Из того, что я понял, вы хотите избавиться от столбца Surname
во втором кадре данных и создать объединение с первым.
spark_read_csv
, кажется, происходит от sparklyr
, который у меня естьникогда не использовал, но просто SparkR
, мы могли бы читать данные, как показано ниже. Я почти уверен, что остальная часть кода будет работать одинаково, независимо от способа чтения данных.
> d1 = read.df(".../f1.csv", "csv", header="true")
> head(d1)
Name Number
1 x 7
2 y 8
> d2 = read.df(".../f2.csv", "csv", header="true")
> head(d2)
Name Number Surname
1 z 5 zz
2 w 6 ww
Тогда это довольно просто:
> trimmed_d2 = select(d2, "Name", "Number")
> all_the_data = union(d1, trimmed_d2)
> head(all_the_data)
Name Number
1 x 7
2 y 8
3 z 5
4 w 6