Как читать поля TXT из нескольких облачных хранилищ в спарк? - PullRequest
0 голосов
/ 11 марта 2020

Я хочу перечислить все корзины из облачного хранилища, которые соответствуют gs://bucketname*. Я попытался использовать gsutil, который работает, но тот же не работает из чтения или чтения потока.

gs: // bucket1 gs: // bucket2 gs: // bucketN

работает: gsutil ls gs://bucket*/mydir/abcd*.txt

не работает: sc.textFile("gs://bucket*/mydir/abcd*.txt")

1 Ответ

0 голосов
/ 11 марта 2020

gsutil реализует подстановочные знаки, выполняя запросы списков блоков и списков объектов (с необязательным префиксом) на сервере, а затем фильтруя результаты по стороне клиента подстановочных знаков. Поскольку spark не поддерживает те же функции, вам придется составить список блоков и объектов и выполнить фильтрацию самостоятельно.

...