Spark и Tika для разбора pdf - PullRequest
       31

Spark и Tika для разбора pdf

0 голосов
/ 10 сентября 2018

Я пытаюсь разобрать читаемый PDF-файл, находящийся в hdfs.

Я импортировал требуемые банки

Проблема, с которой я столкнулся ниже, после импорта PDF-файла как rdd

val data = sc.binaryFiles(“hdfs://xxxx/path/file.pdf)

Приведенное выше создает rdd, затем я пытаюсь взять rdd для создания потока

val stream : InputStream = new FileInputStream(data)

ошибка: конструктор метода перегрузки FileInputStream с альтернативами:

1 Ответ

0 голосов
/ 23 января 2019

Я сделал это используя spark и tika, вот мой код

spark-shell --jars tika-app-1.8.jar

val binRDD = sc.binaryFiles ("/ hdfs_data_directory")

val textRDD = binRDD.map (file => {new org.apache.tika.Tika (). ParseToString (file._2.open ())})

textRDD.saveAsTextFile ( "/ выход /")

...