таблица кустов на основе искровой загрузки на основе текстового файла в качестве фрейма данных (scala) - PullRequest
0 голосов
/ 19 февраля 2019

предположим, что мы храним таблицу как текстовый файл в Hive.В этой таблице есть два столбца: id & groupid.

Путь к хранилищу hdfs выглядит следующим образом: (groupid также является столбцом раздела)

../groupid=1/1
../groupid=2/2
../groupid=3/3
...

Каждый текстовый файл (1,2,3 ...) хранит список идентификаторов.

Например, содержимое файла 1:

123
2358
3456
... 

Могу ли я прочитать эту таблицу как фрейм данных?

Результирующий фрейм данных должен быть

groupid | id
1       | 123
1       | 2358
1       | 3456
2       | ...
2       | ...
3       | ...
...     | ...

spark-sql невозможен, поскольку имеются массивные разделы

1 Ответ

0 голосов
/ 25 февраля 2019

по умолчанию;spark определяет разделение в стиле улья, как только вы задаете basePath в качестве опции.Предполагая, что ваши каталоги groupid находятся в "/ AA / BB / CC".Вы можете перечислить записи:

val basePath="/AA/BB/CC"
val df = spark.read.option("basePath",basePath).csv(basePath+"/group*").show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...