Я настроил Dataprep запланированное задание потоковое копирование и ежедневную обработку некоторых csv и json файлов, хранящихся в облачном хранилище в таблицы Big Query .
Это работало нормально, но с некоторых дней задание стало копировать в Big Query меньше строк, чем в файлах csv и json.
Я не знаю, связано ли это с этим, но в то же время процесс вверх по течению изменил также тип содержимого файлов.
Csvs переключился с application / octet-stream на text / csv; кодировка = UTF-8 .
Jsons от application / json до application / json; кодировка = UTF-8 .
Может ли это изменение типа контента быть как-то связано?
Иначе у кого-нибудь были похожие проблемы?
Я создал ту же версию CSV-файла (с 5 записями) с типом контента
application / octet-stream Другой text / csv; кодировка = UTF-8 . Затем я создал простое задание Dataprep, просто прочитав CSV-файлы и преобразовав некоторую целочисленную переменную, чтобы проверить и экспортировать конечный результат в таблицу Big Query.
Поток обработки csv с кодировкой application / octet-stream экспортировал 5 записей в Big Query, как и ожидалось. Тот, кто обрабатывает CSV с text / csv; charset = utf-8 , экспортировано только 3 записи, даже если в рецепте данных в узле Dataprep Transformer показано 5 записей.
Найдите здесь под моей целевой схемой Big Query:
CustomerID: STRING
CustomerUniqueRef: STRING
BranchID: STRING
DateCreated: DATETIME,
CreatedBy: STRING
PreviouslyBanked: STRING
Мои преобразования в Dataprep просто преобразовывают CustomerID, CustomerUniqueRef, CreatedBy и PreviousBanked из INTEGER в STRING.
Найдите также мой CSV для теста:
CustomerID, CustomerUniqueRef, BranchID, DateCreated, CreatedBy, PreviouslyBanked
43944,0004674956,004,2019-06-14T10: 52: 11,77,1
43945,0004674957,004,2019-06-14T10: 59: 32,77,0
43946,0004674958,004,2019-06-14T11: 03: 14,77,0
43947,0004674959,004,2019-06-14T11: 06: 23,77,0
43948,0004674960,004,2019-06-14T11: 09: 24,77,0