У меня есть коллекция файлов, указанная через запятую, например:
hdfs://user/cloudera/date=2018-01-15,hdfs://user/cloudera/date=2018-01-16,hdfs://user/cloudera/date=2018-01-17,hdfs://user/cloudera/date=2018-01-18,hdfs://user/cloudera/date=2018-01-19,hdfs://user/cloudera/date=2018-01-20,hdfs://user/cloudera/date=2018-01-21,hdfs://user/cloudera/date=2018-01-22
и я загружаю файлы с помощью Apache Spark, все сразу:
val input = sc.textFile(files)
Кроме того, у меня есть дополнительная информация, связанная с каждым файлом - уникальный идентификатор, например:
File ID
--------------------------------------------------
hdfs://user/cloudera/date=2018-01-15 | 12345
hdfs://user/cloudera/date=2018-01-16 | 09245
hdfs://user/cloudera/date=2018-01-17 | 345hqw4
and so on
В качестве вывода мне нужно получить DataFrame со строками, где каждая строка будет содержать тот же идентификатор, что и идентификатор файла, из которого была прочитана эта строка.
Можно ли каким-то образом передать эту информацию Spark, чтобы иметь возможность связываться со строками?