Невозможно установить PySpark на Google Colab - PullRequest
0 голосов
/ 06 апреля 2019

Я пытаюсь установить PySpark в Google Colab, используя приведенный ниже код, но получаю следующую ошибку.

tar: spark-2.3.2-bin-hadoop2.7.tgz: Не удается открыть: нет такого файла или каталога

tar: ошибка не устраняется: выход из программы

Этот код успешно выполнен один раз. Но выдает эту ошибку после перезагрузки ноутбука. Я даже пытался запустить это из другой учетной записи Google, но снова та же ошибка.

(Также есть ли какой-нибудь способ, которым нам не нужно устанавливать PySpark каждый раз после перезапуска ноутбука?)

код:

-------------------------------------------------- -------------------------------------------------- ----------------------------

! Apt-get install openjdk-8-jdk-headless -qq> / dev / null

! Wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

Кажется, эта следующая строка вызывает проблему, поскольку не находит загруженный файл.

! Tar xvf spark-2.3.2-bin-hadoop2.7.tgz

Я также попробовал следующие две строки (вместо двух строк выше), предложенные где-то на среднем блоге. Но ничего лучше.

! Wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

! Tar xvf spark-2.4.0-bin-hadoop2.7.tgz

! Pip install -q findspark

-------------------------------------------------- -------------------------------------------------- ---------------------------

Есть идеи, как выйти из этой ошибки и установить PySpark на Colab?

Ответы [ 2 ]

1 голос
/ 06 апреля 2019

Я запускаю pyspark на colab, просто используя

! Pip install pyspark

и работает нормально.

0 голосов
/ 11 мая 2019

вы получаете эту ошибку, потому что spark-2.3.2-bin-hadoop2.7 заменен последней версией на официальном и зеркальном сайтах.

Перейдите по любому из этих путей и получите последнюю версию

  1. http://apache.osuosl.org/spark/
  2. https://www -us.apache.org / расстояние / искровым /

замените версию сборки сборки, и все готово. все будет работать гладко.

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...