У меня есть несколько файлов .nt (NTriples) в каталоге. Я хочу прочитать каждый набор данных и сохранить соответствующие выходные значения в одной строке кадра данных.
Допустим, у меня есть dataset1.nt, dataset2.nt, ..., datasetn.nt.
При чтении каждого набора данных используется следующий код:
val input = "src/main/resources/dataset1.nt"
val triplesRDD = NTripleReader.load(spark, JavaURI.create(input))
//NTripleReader reads .nt file and separates each line of dataset into subject, predicate and object
/* My code to output number of distinct subjects, predicates and blank subjects in a dataset */
Допустим, набор данных1 дает следующий вывод:
- Количество различных предметов: хххх
- Количество различных предикатов: гг
- Количество пустых предметов: zzz
Допустим, набор данных2 дает следующий вывод:
- Количество различных предметов: ааааа
- Количество различных предикатов: b
- Количество пустых предметов: куб. См
и так далее ...
Когда я использую следующий код для чтения всех файлов в моем каталоге:
val input = "src/main/resources/*"
val triplesRDD = NTripleReader.load(spark, JavaURI.create(input))
Это дает мне следующий вывод:
- Количество различных субъектов: xxxx + aaaaa + ... // добавление всех индивидуальных значений каждого набора данных
- Количество различных предикатов: yy + b + ...
- Количество пустых предметов: zzz + cc + ...
Однако я хочу, чтобы мой вывод был таким:
Distinct Subjects | Distinct Predicates | Blank Subjects
xxxx | yy | zzz
aaaaa | b | cc
... | ... | ...
Пожалуйста, дайте мне знать, как мне достичь желаемого результата.
Заранее спасибо.