Безопасно ли использовать ядерную систему HDFS / tmp для выполнения задания в давно работающем приложении Spark в EMR? - PullRequest
0 голосов
/ 21 июня 2019

У меня есть кластер EMR, который будет запускать долго работающее приложение Spark через действие начальной загрузки. Это приложение будет постоянно обслуживать запросы заданий Spark, и я хочу убедиться, что любое состояние очищается между запусками, если я снова использую контекст Spark.

В настоящее время единственная очистка, которую я выполняю, - это удаление каталога контрольных точек (для удаления старых файлов контрольных точек) в случае, если Spark выполнил какие-либо контрольные точки в задании, и SparkSession.catalog().clearCache().

Мне интересно, безопасно ли просто удалить все в HDFS в / tmp вместе с моей текущей очисткой?

...