Я новичок ie, использующий Apache Spark для самостоятельного изучения в этом семестре, и я не могу понять, как получить доступ к файлам для запуска Spark. Я использую Spark: Полное руководство: обработка больших данных упрощена ISBN-10: 1491912219 и команда, в которой я застрял, это «head data / flight-data / csv / 2015-summary.csv», она дает мне ошибка ": 24: ошибка: не найдена: значение". Запустив то, что я сделал до сих пор.
- скачано Apache Spark 2.4.4 Prebuilt для Apache Имеет oop 2.7
- на данный момент, я могу использовать Ubuntu 18.04 LTS (WSL) перейдите в каталог spark и запустите «.bin / spark-shell», чтобы запустить spark
- . Я могу выполнить несколько первых команд, которые книга предоставляет: «val myRange = spark». range (1000) .toDF ("number") "," val divisBy2 = myRange.where ("number% 2 = 0") "и" divisBy2.count () ".
- загрузили искры -definitive-guide-master файлы из github и помещают их в соответствующие каталоги. (это то место, где я ссылаюсь на файл .CSV)
Я предполагаю, что я не предоставляю Spark правильный путь к файлу, с которым я хочу работать. Хотя я не знаю, как это сделать.
- Я пытался следовать этому видео на YouTube https://www.youtube.com/watch?v=VYNsaR-gOsA, в котором подробно описано создание папки winutils и spark на C: , что я и сделал, а затем отредактировал переменные окружения "hadoop_home" и "spark_home" и путь "% spark_home% \ bin". Похоже, это ничего не дает.
- Пока возился с обоими предыдущими вещами, о которых я упоминал, я пробовал различные команды в Spark, такие как "ls", "cd", "head / mnt /c/spark/data/flight-data/csv/2015-summary.csv "и" head / mnt / c / users / ian / desktop / spark_and_big_data / spark / data / flight-data / csv / 2015-summary. CSV». Ни один из которых не работал.
Я явно упускаю что-то большое здесь, например, необходимость использовать какую-то другую команду, чтобы указать Spark, в какой домашний каталог он должен быть припаркован.
Спасибо за помощь!