У меня есть приложение java jar, которое читает файлы PDF, извлекает содержимое и сохраняет его в папке назначения. Я должен выполнить этот JAR-файл в кластере Hadoop, используя Spark для использования распределенной среды. Мои исходные файлы находятся на hdfs, а место назначения также будет на hdfs.
Как я могу использовать эту банку из моего приложения pyspark? Любая подсказка / шаблон будет высоко оценен.
Примечание: я могу выполнить этот jar из моего локального каталога '
java -jar .... локальные локации (все работало нормально)
Если я хочу прочитать источник из местоположения hdfs, он не читается. Я искал и нашел информацию, которая мне нужна для создания контекста spark / сеанса spark и т. Д ...
Кроме того, я могу прочитать местоположение hdfs с помощью моего приложения pyspark, но как я могу встроить свой jar-файл в свое приложение ИЛИ как мне выполнить java-файл jar в приложении pyspark?