создание кластера в облаке гугл - PullRequest
0 голосов
/ 03 декабря 2018

Мне пришлось анализировать набор данных с помощью облачных кластеров Google.Я создал корзину на облачной платформе Google и создал кластеры компьютеров, я переместил свои данные, которые хотел проанализировать, в корзину (и я физически проверил, что там было).Теперь мне нужно было создать ssh-туннель для моего кластера, и я сделал это, выполнив следующие коды:

%%bash    
#!/bin/bash
NODE="cluster-west1b-m"
ZONE="europe-west1-b"
PORT=8080
PROJ="myfirstproject09112018"   

gcloud compute ssh $NODE \
--project=$PROJ \
--zone=$ZONE -- -fN -L $PORT:localhost:$PORT 

После этого я пошел на localhost: 8080, и здесь я открыл записную книжку python, и яимпортированы некоторые библиотеки искр:

from pyspark.sql import functions as F
from pyspark.sql import types as T
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

А потом я захотел прочитать свои файлы, поэтому попытался запустить:

natality = spark.read.csv('gs://storage-eu-west-luchino/natality/natality*.csv',header=True,inferSchema=True)

Но он говорит, что он не может найти файл, ноФайл находится в ведре, поэтому я не могу понять, где проблема, ошибка в основном это:

Py4JJavaError: An error occurred while calling o61.csv.
: java.io.IOException: No FileSystem for scheme: gs

Кто-нибудь есть идеи, почему это не работает?Я действительно не могу понять проблему

1 Ответ

0 голосов
/ 03 декабря 2018

Spark не понимает gs:// протокол из коробки, поэтому эта ошибка:

Нет файловой системы для схемы: gs

Вместо этого вы можетевыполните любое из следующих действий:

...