У меня есть десятки тысяч сжатых файлов CSV, которые записываются в S3 каждый день.Они содержат поля, разделенные запятыми, каждое поле заключено в двойные кавычки (независимо от типа данных).Однако двойные кавычки, содержащиеся в поле, экранируются с помощью \
вместо RFC4180 стандарта "
, например, так:
header1,header1,header3
"1","Look some text.","43.7"
"2","27\" TV","29.1"
"3","More things","99.0"
Это нормально работает для Amazon Athena или другихпродукты, которые используют десериализаторы, которые позволяют вам указать символ кавычки / escape.Однако BigQuery не может принять эти данные.Я получаю ошибку:
Error: Data between close double quote (\") and field separator.
Когда я пытаюсь, это имеет смысл.Я не могу изменить базовую структуру данных (написанную другой службой), установка для параметра configuration.load.quote
неиспользуемого символа приводит к ошибкам синтаксического анализа, и нереально раскручивать экземпляры Cloud SQL, чтобы просто действовать для этого как парсер (яm обрабатывает ТБ данных каждый день).
Я подумал, что установка символа кавычки на \"
может сработать, но API BQ допускает только один символ для этого поля.
Как решитьэто?