[AWS Glue]: org.apache.thrift.TApplicationException: внутренняя ошибка обработки createInterpreter - PullRequest
0 голосов
/ 06 ноября 2018

Я пытаюсь использовать zeppelin-0.8.0 для подключения к конечной точке AWS Glue Development, и при выполнении ячейки ниже возникает ошибка. И нет полезного сообщения, чтобы понять, в чем может быть проблема. Любые лиды оценили

172318_1906434757 is finished, status: ERROR, exception: java.lang.RuntimeException: org.apache.thrift.TApplicationException: Internal error processing createInterpreter, result: %text org.apache.thrift.TApplicationException: Internal error processing createInterpreter
        at org.apache.thrift.TApplicationException.read(TApplicationException.java:111)
        at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:71)
        at org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_createInterpreter(RemoteInterpreterService.java:209)
        at org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.createInterpreter(RemoteInterpreterService.java:192)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter$2.call(RemoteInterpreter.java:169)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter$2.call(RemoteInterpreter.java:165)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreterProcess.callRemoteFunction(RemoteInterpreterProcess.java:135)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.internal_create(RemoteInterpreter.java:165)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.open(RemoteInterpreter.java:132)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.getFormType(RemoteInterpreter.java:299)
        at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:407)
        at org.apache.zeppelin.scheduler.Job.run(Job.java:188)
        at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:307)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)

ОБНОВЛЕНИЕ : Так, как в ответе ниже, похоже, что 0.8.0 еще не работает с Glue ... У меня были проблемы с запуском 0.7.x aw хорошо с javax. Пакет ws.rx, имеющий кучу исключений MethodNotFoundException при работе с Java 8 (также не помогла альтернатива обновлению для Java 7). Но при работе внутри док-контейнера JDK 7 он работал без проблем и смог подключиться к моей конечной точке разработки. Буду очень признателен, если кто-нибудь сможет выяснить причину его возникновения

1 Ответ

0 голосов
/ 07 ноября 2018

Не могли бы вы предоставить дополнительную информацию, например, местоположение экземпляра Zeppin. Работает ли он на вашем настольном компьютере / ноутбуке или работает как сервер AWS Notebook? Также вы пытались подключиться к версии zeppelin 0.7.3, как указано здесь в этой ссылке на форуме AWS:

https://forums.aws.amazon.com/thread.jspa?threadID=285128

В соответствии с приведенной выше ссылкой от июля 2018 года, думаю, что AWS Glue еще не поддерживает версию Zeppelin 0.8. Я предполагаю, что все другие конфигурации, настройки среды выполняются по мере необходимости. Может помочь больше, если можете предоставить дополнительную информацию.

UPDATE: В любом случае, пожалуйста, обратитесь к здесь и по настройке zeppelin в windows , для получения любой помощи по настройке локальной среды разработки и ноутбука zeppelin.

После настройки записной книжки zeppelin установите соединение SSH (с помощью URL-адреса AWS Glue DevEndpoint), чтобы вы могли иметь доступ к каталогу данных / сканерам и т. Д., А также к корзине S3, в которой находятся ваши данные. Затем вы можете создать свои скрипты на python в блокноте zeppelin и запускать из zeppelin.

Вы можете использовать экземпляр dev, предоставленный Glue, но вы можете понести дополнительные расходы на него (плата за экземпляр EC2).

Настройки среды (обновляется в ответ на комментарии):

JAVA_HOME=E:\Java7\jre7
Path=E:\Python27;E:\Python27\Lib;E:\Python27\Scripts;
PYTHONPATH=E:\spark-2.1.0-bin-hadoop2.7\python;E:\spark-2.1.0-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip;E:\spark-2.1.0-bin-hadoop2.7\python\lib\pys
park.zip
SPARK_HOME=E:\spark-2.1.0-bin-hadoop2.7

Измените имя диска / папки соответственно. Дайте мне знать, если вам нужна помощь.

...