У меня есть кластер EMR, который будет запускать долго работающее приложение Spark через действие начальной загрузки. Это приложение будет постоянно обслуживать запросы заданий Spark, и я хочу убедиться, что любое состояние очищается между запусками, если я снова использую контекст Spark.
В настоящее время единственная очистка, которую я выполняю, - это удаление каталога контрольных точек (для удаления старых файлов контрольных точек) в случае, если Spark выполнил какие-либо контрольные точки в задании, и SparkSession.catalog().clearCache()
.
Мне интересно, безопасно ли просто удалить все в HDFS в / tmp вместе с моей текущей очисткой?