Я использую Spark 2.3.1 и выполняю NLTK для тысяч входных файлов.
Из входных файлов я извлекаю слова из униграммы, биграммы и триграммы и сохраняю их в другом фреймворке.
Теперь я хочу сохранить фреймы данных в уважаемый файл в HDFS. (каждый раз добавление вывода в один и тот же файл) Итак, в конце у меня есть три файла CSV с именами unigram.csv, bigram.csv, trigram.csv, содержащие результат тысяч входных файлов.
Если этот сценарий не возможно с HDFS, можете ли вы предложить это с использованием локального диска в качестве пути хранения.