ОШИБКА СИСТЕМЫ: NumberFormatException: нулевая длина BigInteger - PullRequest
1 голос
/ 20 марта 2020

Эта ошибка часто появляется, когда я пытаюсь выполнить CTAS из данных CSV.

Схема CSV:

create or replace schema
(
    `SomeCol1` BIGINT NOT NULL,
    `SomeCol2` INT NOT NULL,
    `SomeCol3` INT NOT NULL DEFAULT '0',
    `SomeCol4` DATE NOT NULL FORMAT 'yyyy-MM-dd',
    `SomeCol5` INT,
    `SomeCol6` INT NOT NULL,
    `SomeCol7` DECIMAL(10,2) NOT NULL,
    `SomeCol8` DECIMAL (10,2) NOT NULL,
    `SomeCol9` DOUBLE
)
for table  "<path to CSVs>"
properties ('drill.strict' = 'true')

Затем я запускаю:

create table "<path to a parquet>" as select
    <all 9 columns>
    from "<path to CSVs>"

В некоторых случаях эта ошибка происходит:

ОШИБКА СИСТЕМЫ: NumberFormatException: нулевая длина BigInteger

Фрагмент 0: 0

Пожалуйста, обратитесь к журналам для получения дополнительной информации. *

*) В журналах больше ничего нет.


В CSV есть гигабайты строк, и некоторые из них, очевидно, находятся в какая-то плохая форма.

1) Как я должен найти такую ​​ошибку? По крайней мере, в каком столбце это произошло? (кроме некоторых хаков, таких как уменьшение количества столбцов и затем строк, и т. д. c ..)

2) Есть ли возможность увеличить многословие?

3) Или я могу настроить схему для ... лучшего поведения?

...