Эта ошибка часто появляется, когда я пытаюсь выполнить CTAS из данных CSV.
Схема CSV:
create or replace schema
(
`SomeCol1` BIGINT NOT NULL,
`SomeCol2` INT NOT NULL,
`SomeCol3` INT NOT NULL DEFAULT '0',
`SomeCol4` DATE NOT NULL FORMAT 'yyyy-MM-dd',
`SomeCol5` INT,
`SomeCol6` INT NOT NULL,
`SomeCol7` DECIMAL(10,2) NOT NULL,
`SomeCol8` DECIMAL (10,2) NOT NULL,
`SomeCol9` DOUBLE
)
for table "<path to CSVs>"
properties ('drill.strict' = 'true')
Затем я запускаю:
create table "<path to a parquet>" as select
<all 9 columns>
from "<path to CSVs>"
В некоторых случаях эта ошибка происходит:
ОШИБКА СИСТЕМЫ: NumberFormatException: нулевая длина BigInteger
Фрагмент 0: 0
Пожалуйста, обратитесь к журналам для получения дополнительной информации. *
*) В журналах больше ничего нет.
В CSV есть гигабайты строк, и некоторые из них, очевидно, находятся в какая-то плохая форма.
1) Как я должен найти такую ошибку? По крайней мере, в каком столбце это произошло? (кроме некоторых хаков, таких как уменьшение количества столбцов и затем строк, и т. д. c ..)
2) Есть ли возможность увеличить многословие?
3) Или я могу настроить схему для ... лучшего поведения?