jav-файл jar, выполняющийся из приложения pyspark / spark - PullRequest
0 голосов
/ 02 ноября 2018

У меня есть приложение java jar, которое читает файлы PDF, извлекает содержимое и сохраняет его в папке назначения. Я должен выполнить этот JAR-файл в кластере Hadoop, используя Spark для использования распределенной среды. Мои исходные файлы находятся на hdfs, а место назначения также будет на hdfs.

Как я могу использовать эту банку из моего приложения pyspark? Любая подсказка / шаблон будет высоко оценен.

Примечание: я могу выполнить этот jar из моего локального каталога '

java -jar .... локальные локации (все работало нормально)

Если я хочу прочитать источник из местоположения hdfs, он не читается. Я искал и нашел информацию, которая мне нужна для создания контекста spark / сеанса spark и т. Д ...

Кроме того, я могу прочитать местоположение hdfs с помощью моего приложения pyspark, но как я могу встроить свой jar-файл в свое приложение ИЛИ как мне выполнить java-файл jar в приложении pyspark?

...