Question

предположим, что мы храним таблицу как текстовый файл в Hive.В этой таблице есть два столбца: id & groupid.

Путь к хранилищу hdfs выглядит следующим образом: (groupid также является столбцом раздела)

../groupid=1/1
../groupid=2/2
../groupid=3/3
...

Каждый текстовый файл (1,2,3 ...) хранит список идентификаторов.

Например, содержимое файла 1:

Могу ли я прочитать эту таблицу как фрейм данных?

Результирующий фрейм данных должен быть

groupid | id
1       | 123
1       | 2358
1       | 3456
2       | ...
2       | ...
3       | ...
...     | ...

spark-sql невозможен, поскольку имеются массивные разделы

HakkiBuyukcengiz · Answer 1 · 25 февраля 2019

по умолчанию;spark определяет разделение в стиле улья, как только вы задаете basePath в качестве опции.Предполагая, что ваши каталоги groupid находятся в "/ AA / BB / CC".Вы можете перечислить записи:

val basePath="/AA/BB/CC"
val df = spark.read.option("basePath",basePath).csv(basePath+"/group*").show()

таблица кустов на основе искровой загрузки на основе текстового файла в качестве фрейма данных (scala)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

таблица кустов на основе искровой загрузки на основе текстового файла в качестве фрейма данных (scala)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов