Когда я пытаюсь прочитать файл паркета из указанного места, например / test, с помощью spark.read.parquet (), я получаю сообщение об ошибке file: // test не существует.Когда я добавляю core-site.xml в качестве ресурса в коде с
sc.hadoopConfiguration.addResource(new Path(<path-to-core-site.xml>))
, он выглядит в hdfs.Однако я не хочу добавлять ресурс в коде.Мой вопрос: как мне убедиться, что spark читает core-site.xml и использует hdfs в качестве файловой системы по умолчанию.
Я установил сервер Ubuntu 18.04.2LTS с hadoop 3, spark 2.4.2 и yarnкак менеджер ресурсов в виртуальной машине.Я настроил файл core-site.xml с fs.defaultFS, для которого задано значение hdfs: // localhost: 9000.Я также настроил HADOOP_CONF_DIR в файле bash.