Мне пришлось анализировать набор данных с помощью облачных кластеров Google.Я создал корзину на облачной платформе Google и создал кластеры компьютеров, я переместил свои данные, которые хотел проанализировать, в корзину (и я физически проверил, что там было).Теперь мне нужно было создать ssh-туннель для моего кластера, и я сделал это, выполнив следующие коды:
%%bash
#!/bin/bash
NODE="cluster-west1b-m"
ZONE="europe-west1-b"
PORT=8080
PROJ="myfirstproject09112018"
gcloud compute ssh $NODE \
--project=$PROJ \
--zone=$ZONE -- -fN -L $PORT:localhost:$PORT
После этого я пошел на localhost: 8080, и здесь я открыл записную книжку python, и яимпортированы некоторые библиотеки искр:
from pyspark.sql import functions as F
from pyspark.sql import types as T
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext
А потом я захотел прочитать свои файлы, поэтому попытался запустить:
natality = spark.read.csv('gs://storage-eu-west-luchino/natality/natality*.csv',header=True,inferSchema=True)
Но он говорит, что он не может найти файл, ноФайл находится в ведре, поэтому я не могу понять, где проблема, ошибка в основном это:
Py4JJavaError: An error occurred while calling o61.csv.
: java.io.IOException: No FileSystem for scheme: gs
Кто-нибудь есть идеи, почему это не работает?Я действительно не могу понять проблему