Невозможно получить доступ к файлам в Apache Spark, совершенно новой для Spark, для самостоятельного обучения в колледже - PullRequest
0 голосов
/ 03 февраля 2020

Я новичок ie, использующий Apache Spark для самостоятельного изучения в этом семестре, и я не могу понять, как получить доступ к файлам для запуска Spark. Я использую Spark: Полное руководство: обработка больших данных упрощена ISBN-10: 1491912219 и команда, в которой я застрял, это «head data / flight-data / csv / 2015-summary.csv», она дает мне ошибка ": 24: ошибка: не найдена: значение". Запустив то, что я сделал до сих пор.

  1. скачано Apache Spark 2.4.4 Prebuilt для Apache Имеет oop 2.7
  2. на данный момент, я могу использовать Ubuntu 18.04 LTS (WSL) перейдите в каталог spark и запустите «.bin / spark-shell», чтобы запустить spark
  3. . Я могу выполнить несколько первых команд, которые книга предоставляет: «val myRange = spark». range (1000) .toDF ("number") "," val divisBy2 = myRange.where ("number% 2 = 0") "и" divisBy2.count () ".
  4. загрузили искры -definitive-guide-master файлы из github и помещают их в соответствующие каталоги. (это то место, где я ссылаюсь на файл .CSV)

Я предполагаю, что я не предоставляю Spark правильный путь к файлу, с которым я хочу работать. Хотя я не знаю, как это сделать.

  1. Я пытался следовать этому видео на YouTube https://www.youtube.com/watch?v=VYNsaR-gOsA, в котором подробно описано создание папки winutils и spark на C: , что я и сделал, а затем отредактировал переменные окружения "hadoop_home" и "spark_home" и путь "% spark_home% \ bin". Похоже, это ничего не дает.
  2. Пока возился с обоими предыдущими вещами, о которых я упоминал, я пробовал различные команды в Spark, такие как "ls", "cd", "head / mnt /c/spark/data/flight-data/csv/2015-summary.csv "и" head / mnt / c / users / ian / desktop / spark_and_big_data / spark / data / flight-data / csv / 2015-summary. CSV». Ни один из которых не работал.

Я явно упускаю что-то большое здесь, например, необходимость использовать какую-то другую команду, чтобы указать Spark, в какой домашний каталог он должен быть припаркован.

Спасибо за помощь!

1 Ответ

0 голосов
/ 06 февраля 2020

В конце концов мне удалось заставить все работать должным образом с помощью профессора. Я все еще не совсем понимаю, что именно мы делали неправильно, потому что мой другой профессор тоже не мог заставить его работать. Сейчас все работает. Как сказал Лши, «голова» не будет работать в оболочке Scala. Во-вторых, мой профессор и я использовали неправильный формат при попытке доступа к файлам с помощью других команд. Я не помню точно, что это было, но правильный формат - "spark.read.csv (" / mnt / c / spark / data / flight-data / csv / localdisktest.csv "). Show"

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...