Pyspark: можно ли прочитать файл из облака Google из блоков данных? - PullRequest
0 голосов
/ 25 марта 2020

Я работаю над Databricks и хотел бы узнать, могу ли я прочитать файл csv из облака Google.

Я пытался прочитать это руководство: https://docs.databricks.com/data/data.html

Я могу читать данные локально в Python таким образом

path = 'myJson.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = path
client = storage.Client()
name = 'https://console.cloud.google.com/storage/browser/myBucket/'
bucket_id = 'myBucket'
bucket = client.get_bucket(bucket_id)

df = pd.read_csv('gs://myBucket/feed/us/2020/03/19/18/data0000000001.csv.gz, compression='gzip')

1 Ответ

0 голосов
/ 31 марта 2020

К сожалению, подключение к Google Cloud не поддерживается как источник в Azure Databricks.

Поддерживаемые источники данных в Azure Databricks: https://docs.microsoft.com/en-us/azure/databricks/data/data-sources/

Согласно моему исследованию, я нашел сторонний инструмент под названием «Panoply», который вы можете начать анализировать данные вашего облачного хранилища Google с помощью Databricks .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...