предположим, что мы храним таблицу как текстовый файл в Hive.В этой таблице есть два столбца: id & groupid.
Путь к хранилищу hdfs выглядит следующим образом: (groupid также является столбцом раздела)
../groupid=1/1
../groupid=2/2
../groupid=3/3
...
Каждый текстовый файл (1,2,3 ...) хранит список идентификаторов.
Например, содержимое файла 1:
123
2358
3456
...
Могу ли я прочитать эту таблицу как фрейм данных?
Результирующий фрейм данных должен быть
groupid | id
1 | 123
1 | 2358
1 | 3456
2 | ...
2 | ...
3 | ...
... | ...
spark-sql невозможен, поскольку имеются массивные разделы