Ошибка записи в OrcNewOutputFormat с использованием MapR MultipleOutputs - PullRequest
1 голос
/ 19 марта 2019

Мы читаем данные из файлов ORC и записываем их обратно в формат ORC и Parquet, используя MultipleOutputs. Наша работа только на карте и не имеет редуктора. В некоторых случаях мы получаем следующие ошибки, которые не позволяют выполнить всю работу. Я думаю, что обе ошибки связаны, но не уверен, почему они не подходят для каждой работы. Дайте мне знать, если потребуется дополнительная информация.

Error: java.lang.RuntimeException: Overflow of newLength. smallBuffer.length=1073741824, nextElemLength=300947

Error: java.lang.ArrayIndexOutOfBoundsException: 1000
    at org.apache.orc.impl.writer.StringTreeWriter.writeBatch(StringTreeWriter.java:70)
    at org.apache.orc.impl.writer.StructTreeWriter.writeRootBatch(StructTreeWriter.java:56)
    at org.apache.orc.impl.WriterImpl.addRowBatch(WriterImpl.java:546)
    at org.apache.hadoop.hive.ql.io.orc.WriterImpl.flushInternalBatch(WriterImpl.java:297)
    at org.apache.hadoop.hive.ql.io.orc.WriterImpl.close(WriterImpl.java:334)
    at org.apache.hadoop.hive.ql.io.orc.OrcNewOutputFormat$OrcRecordWriter.close(OrcNewOutputFormat.java:67)
    at org.apache.hadoop.mapreduce.lib.output.MultipleOutputs$RecordWriterWithCounter.close(MultipleOutputs.java:375)
    at org.apache.hadoop.mapreduce.lib.output.MultipleOutputs.close(MultipleOutputs.java:574)


Error: java.lang.NullPointerException
    at java.lang.System.arraycopy(Native Method)
    at org.apache.orc.impl.DynamicByteArray.add(DynamicByteArray.java:115)
    at org.apache.orc.impl.StringRedBlackTree.addNewKey(StringRedBlackTree.java:48)
    at org.apache.orc.impl.StringRedBlackTree.add(StringRedBlackTree.java:60)
    at org.apache.orc.impl.writer.StringTreeWriter.writeBatch(StringTreeWriter.java:70)
    at org.apache.orc.impl.writer.StructTreeWriter.writeRootBatch(StructTreeWriter.java:56)
    at org.apache.orc.impl.WriterImpl.addRowBatch(WriterImpl.java:546)
    at org.apache.hadoop.hive.ql.io.orc.WriterImpl.flushInternalBatch(WriterImpl.java:297)
    at org.apache.hadoop.hive.ql.io.orc.WriterImpl.close(WriterImpl.java:334)
    at org.apache.hadoop.hive.ql.io.orc.OrcNewOutputFormat$OrcRecordWriter.close(OrcNewOutputFormat.java:67)
    at org.apache.hadoop.mapreduce.lib.output.MultipleOutputs$RecordWriterWithCounter.close(MultipleOutputs.java:375)
    at org.apache.hadoop.mapreduce.lib.output.MultipleOutputs.close(MultipleOutputs.java:574)
...