Мне интересно, есть ли способ объединить конечный результат в один файл при использовании Spark? Вот код, который у меня есть:
conf = SparkConf().setAppName("logs").setMaster("local[*]")
sc = SparkContext(conf = conf)
logs_1 = sc.textFile('logs/logs_1.tsv')
logs_2 = sc.textFile('logs/logs_2.tsv')
url_1 = logs_1.map(lambda line: line.split("\t")[2])
url_2 = logs_2.map(lambda line: line.split("\t")[2])
all_urls = uls_1.intersection(urls_2)
all_urls = all_urls.filter(lambda url: url != "localhost")
all_urls.collect()
all_urls.saveAsTextFile('logs.csv')
Кажется, что метод collect () не работает (или я неправильно понял его назначение). По сути, мне нужен «saveAsTextFile» для вывода в один файл, а не в папку с частями.