Databricks CSV многократного чтения - PullRequest
0 голосов
/ 26 сентября 2019

Предположим, у меня есть следующие CSV-файлы со следующим содержимым

file_20190901.csv

col1       col2         col3
data       20190901     A

file_20190902.csv

col1       col2         col3
data       20190901     B
data       20190902     A

Итак, когда-нибудь позже, имея имя файла file_20190903.csv, будет иметь

col1    col2         col3
data       20190902     B
data       20190903     A

Итак, теперь задача состоит в том, чтобы объединить эти CSV-файлы во фрейме данных и включить все записи с 20190901 по 20190903на col2, и используя последние данные строки.Так что желайте, чтобы результаты были

col1    col2         col3
data    20190901     B 
data    20190902     B
data    20190903     A

Как это сделать в Databricks используя Python?

1 Ответ

0 голосов
/ 26 сентября 2019

Из примеров файлов col2 имеет те же значения, но col3 имеет разные значения.Таким образом, вы не можете объединить оба файла.

file_20190901.csv

col1 col2 col3

данные 20190901 A

file_20190902.csv

col1 col2 col3

данные 20190901 B

Как читать несколько файлов CSV:

Скопируйте все файлы csv в базу данных dbfs, как показано:

enter image description here

Затем создайте записную книжку python и выполните следующее:

ReadMultiple = spark.read.format("csv").option("header", "true").load("/sample/*.csv")
display(ReadMultiple)

enter image description here

Надеюсь, это поможет.

...