Автор univocity-parsers
здесь.
Парсер был создан для быстрого сбоя, когда что-то потенциально неправильно с вашей программой (т. Е. Формат файла был настроен неправильно) или с входным файлом (т. Е. С входными данными).файл не соответствует формату, ожидаемому вашей программой, или содержит неэкранированные / незамкнутые кавычки).
Трассировка стека показывает это:
Sesso e il poliziotto sposato IT NA NA NA 0[\n]
tt0097089 4 Sex and the Married Detective US NA NA NA 0[\n]`tt0100054 1 Fluenes herre NO NA imdbDisplay NA 0
tt0100054 20 Kärpästen herra FI NA NA NA 0
tt0100054 2
, который четко показывает содержимое нескольких строк, которые читаютсякак будто они были частью единого значения.Это означает, что где-то рядом с этим текстом во входном файле есть значения, начинающиеся с кавычки, которая никогда не закрывается.
Вы можете настроить синтаксический анализатор так, чтобы он не пытался обрабатывать кавычки со следующими значениями:
settings.getFormat().setQuote('\0');
Если вы уверены, что ваша конфигурация формата правильная и во входных данных есть очень длинные значения, установите maxCharsPerColumn
на -1
.
Наконец, похоже, что вы анализируете TSV, чтоне CSV и должен обрабатываться по-другому.В этом случае вы также можете попробовать использовать TsvParser
.
Надеюсь, это поможет