Нифи FetchParquet получить ошибку из-за UTF 8 - PullRequest
0 голосов
/ 01 февраля 2019

Похоже, что в моих файлах партера есть символы UTF 8, которые, когда FetchParquet пытается завершить работу, выдает ошибку. Не удалось получить содержимое из /opt/nifi/nifi-current/tmpdir/events-1548847077946.parquet.gzдля StandardFlowFileRecord обязательный двоичный идентификатор (UTF8) не является группой;маршрутизация до отказа: java.lang.ClassCastException: обязательный двоичный идентификатор (UTF8) не является группой

Отредактировано для получения дополнительной информации

Полный поток такой, как показано ниже: listS3 - для получения файлов из AWSS3 bucket FetchS3Object - для получения файлов PutFile - помещение файла в локальный режим, так что FetchParquet - извлечение файлов из локального файла и попытка записи записи в содержимое потока файла.Записывающее устройство, которое я использую, - AvroRecordSetWriter.

Полный журнал ошибок, который я получаю, -

ОШИБКА [Поток-управляемый поток процесса-5] oanifi.processors.parquet.FetchParquet FetchParquet [id = a4b72743-0168-1000-3f57-56468 16bf9bb] Не удалось получить содержимое из /opt/nifi/nifi-current/tmpdir/events-1548846649918.parquet.gz для StandardFlowFileRecord [uuid = 4f76e6db-f0cc -4d57-ab8eb1c3c3c1ec145)[resourceClaim = StandardResourceClaim [id = 1548968443407-5712, контейнер = по умолчанию, раздел = 592], offs et = 415769, длина = 59611], смещение = 0, name = events-1548846649918.parquet.gz, размер = 59611] из-заjava.lang.ClassCastException: обязательный двоичный идентификатор (UTF8) не является группой;маршрутизация до отказа: java.lang.ClassCastException: обязательный двоичный идентификатор (UTF8) не является группой

Обратите внимание: формат файла - filename.parquet.gz.Цель состоит в том, чтобы выполнить некоторую агрегацию и загрузить файлы в базу данных.

Пожалуйста, предложите

...