Мое приложение Apache Spark обрабатывает гигантские RDD и генерирует EventLogs через History Server.Как я могу экспортировать эти журналы и импортировать их на другой компьютер, чтобы просмотреть их через пользовательский интерфейс History Server?
Искра при запуске приложений записывает события в spark.eventLog.dir (например, для HDFS - hdfs: // namenode / shared / spark-logs), как настроено вspark-defaults.conf.
Затем они считываются сервером истории искр на основе параметра spark.history.fs.logDirectory .Оба эти каталога журналов должны быть одинаковыми, и процесс сервера истории искр должен иметь разрешения на чтение этих файлов.Таким образом, это будут файлы json в каталоге журнала событий для каждого приложения.К ним можно получить доступ с помощью соответствующих команд файловой системы .
Мой кластер использует Windows 10, и по какой-то причине в этой ОС файлы журнала не загружаются, если они не генерируются на самой машине.Используя другую операционную систему, например Ubuntu, я смог просматривать журналы History Server в браузере.