Мы столкнулись со странной проблемой со SPARK.Мы перемещаем файл через SPARK от источника к месту назначения.
Источник и место назначения находятся на HIVE, и есть небольшие различия в столбцах в структуре таблицы источника к месту назначения.
В журнале показано следующее:
18/12/28 18:29:40 ИНФОРМАЦИЯ hiveWriterUtil: HDFS файлы на месте: hdfs: // bdpdev / tmp / sess5710288177503367165 / mobl_data_hour_summ_nsit_s1ap
18/12/28 18:29: 40 INFO hiveWriterUtil: MoveDfs: целевое местоположение не существует
18/12/28 18:29:40 ОШИБКА ApplicationMaster: исключение класса пользователя: исключение: java.lang.reflect.InvocationTargetException
java.lang.reflect.InvocationTargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at com.informatica.compiler.InfaSparkMain$.main(InfaSparkMain.scala:108)
at com.informatica.compiler.InfaSparkMain.main(InfaSparkMain.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:637)
Вызвано: org.apache.spark.SparkException: MoveDfs: Невозможно переместить источник-30 / час = 13 до места назначения hdfs: // bdpdev / data / dev1 / обработано / rwdt / gnrl / shar / NDC / insights / mobl_data_hour_summ_nsit_s1ap / dt = 2018-10-30 / hr = 13
at com.informatica.hive.hiveWriterUtil$.moveFile(hivebkt.scala:739)
at com.informatica.hive.hiveWriterUtil$.moveFileInDfs(hivebkt.scala:678)
at com.informatica.hive.hiveWriterUtil$$anonfun$writeToBucket$2.apply(hivebkt.scala:316)
at com.informatica.hive.hiveWriterUtil$$anonfun$writeToBucket$2.apply(hivebkt.scala:312)
at scala.collection.mutable.HashSet.foreach(HashSet.scala:78)
at com.informatica.hive.hiveWriterUtil$.writeToBucket(hivebkt.scala:312)
at com.informatica.exec.InfaSpark0$.main(InfaSpark0.scala:61)
at com.informatica.exec.InfaSpark0.main(InfaSpark0.scala)
... 11 more
Причина: java.io.FileNotFoundException: Файл не существует: hdfs: // bdpdev / data / dev1 / processing / rwdt / gnrl / shar / NDC / insights / mobl_data_hour_summ_nsit_s1ap / dt = 2018-10-30
at org.apache.hadoop.hdfs.DistributedFileSystem$20.doCall(DistributedFileSystem.java:1269)
at org.apache.hadoop.hdfs.DistributedFileSystem$20.doCall(DistributedFileSystem.java:1261)
at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1261)
at com.informatica.hive.hiveWriterUtil$.getFileStatus(hivebkt.scala:766)
Проблеманиже
hdfs: // bdpdev / tmp / sess5710288177503367165 / mobl_data_hour_summ_nsit_s1ap / dt = 2018-10-30 / hr = 13 до места назначения hdfs: // bdpdev / data / dev1 / processing / rwdt / gnrl / shwarNDC / insights / mobl_data_hour_summ_nsit_s1ap / dt = 2018-10-30 / ч = 13
Пункт назначения содержит несколько разделов.В нем упоминается, что файл не существует для следующего: hdfs: // bdpdev / data / dev1 / processing / rwdt / gnrl / shar / NDC / insights / mobl_data_hour_summ_nsit_s1ap / dt = 2018-10-30 /
В идеале, Я ожидаю, что раздел будет создан для ниже тоже hdfs: // bdpdev / data / dev1 / processing / rwdt / gnrl / shar / NDC / insights / mobl_data_hour_summ_nsit_s1ap / dt = 2018-10-30 /
Может кто-нибудь, пожалуйста, помогите