R: объединить два CSV-файла с искрой - PullRequest
1 голос
/ 04 ноября 2019

У меня есть два очень больших файла CSV, и я использую спарк с R. Мой первый файл был загружен следующим образом:

data <- spark_read_csv(sc, "D:/my_file.csv")

После работы с первым файлом у меня есть следующие переменные:

Name | Number

Второй CSV-файл, который имеет эти переменные:

Name | Number | Surname

Вы также можете видеть, что второй файл имеет еще одну переменную, чем первый. Я хотел бы игнорировать столбец Surname второго файла при загрузке с помощью spark. Как я могу объединить два файла так, чтобы второй был континуумом первого?

1 Ответ

0 голосов
/ 04 ноября 2019

Из того, что я понял, вы хотите избавиться от столбца Surname во втором кадре данных и создать объединение с первым.

spark_read_csv, кажется, происходит от sparklyr, который у меня естьникогда не использовал, но просто SparkR, мы могли бы читать данные, как показано ниже. Я почти уверен, что остальная часть кода будет работать одинаково, независимо от способа чтения данных.

> d1 = read.df(".../f1.csv", "csv", header="true")
> head(d1)
  Name Number
1    x      7
2    y      8

> d2 = read.df(".../f2.csv", "csv", header="true")
> head(d2)
  Name Number Surname
1    z      5      zz
2    w      6      ww

Тогда это довольно просто:

> trimmed_d2 = select(d2, "Name", "Number")
> all_the_data = union(d1, trimmed_d2)
> head(all_the_data)
  Name Number
1    x      7
2    y      8
3    z      5
4    w      6
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...