Я пытаюсь импортировать большое количество CSV-файлов в Google BigQuery.
Один из моих столбцов String иногда содержит массив, содержащий двойные кавычки, которые экранируются с помощью \
. Пример:
... ,"{\"ex1\":\"somestuffhere\"\,\"ex2\":\"somestuffhere\"\,\"ex3\":\"somestuffhere\"}",
...
Я считаю, что проблема вызвана тем, что BigQuery по умолчанию ожидает, что двойные кавычки будут экранированы другой двойной кавычкой - ""
. Я экспериментировал с отправкой различных параметров в аргумент --quote
, но он не работает, как я надеялся.
Текущая команда загрузки командной строки, которую я пытаюсь:
bq load --noreplace --skip_leading_rows=1 --allow_jagged_rows='true' --ignore_unknown_values='true' --quote='"' --source_format=CSV TestDataset.cmdLineTest gs://s3_data_transfers/Events_10422/LIVE/* myschema.json
Можно ли как-нибудь заставить платформу принять эти строки? Или я вынужден исследовать этапы предварительной обработки? Эта таблица будет обновляться каждый день в зависимости от отправки нового csv, поэтому в идеале стараемся свести к минимуму количество шагов предварительной обработки.
Спасибо!