У меня есть данные из твиттера, хранящиеся в пути hdfs.Я могу прочитать данные с помощью spark dataframe как:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df= hiveContext.read.json("/nifi/data/twitter/")
df.printSchema
и df.show
команды показывают результат без проблем.
, но когда я пытаюсь сохранитьфрейма данных в таблицу кустов, я сталкиваюсь с ошибками ниже:
df.write.saveAsTable("tweets_32")
org.apache.hadoop.ipc.RemoteException (org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): нетарендовать /apps/hive/warehouse/tweets_32/_tevent/0/_teven/attempt_201809260508_0002_m_000002_0/part-r-00002-c204b592-dc2a-4b2f-bc39-54afb237a6cb.gz.parquet: не существует в файле 117 (узел).[Аренда.Организатор: DFSClient_NONMAPREDUCE_14557453_1, pendingcreates: 1]>
Может кто-нибудь сообщить мне, что может быть причиной этого?