Клей AWS с двойной кавычкой и запятыми - PullRequest
0 голосов
/ 15 мая 2018

У меня есть этот CSV-файл:

reference,address
V7T452F4H9,"12410 W 62TH ST, AA D"

В определении таблицы используются следующие опции

ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
WITH SERDEPROPERTIES ( 
  'quoteChar'='\"', 
  'separatorChar'=',') 

, но он все равно не распознает двойные кавычки в данныхи эта запятая в поле двойных кавычек портит данные.Когда я запускаю запрос Athena, результат выглядит следующим образом

reference     address
V7T452F4H9    "12410 W 62TH ST

Как мне решить эту проблему?

1 Ответ

0 голосов
/ 17 мая 2018

Похоже, вам также нужно добавить escapeChar. AWS Athena docs показывает этот пример:

CREATE EXTERNAL TABLE myopencsvtable (
   col1 string,
   col2 string,
   col3 string,
   col4 string
)
ROW FORMAT SERDE 
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   'separatorChar' = ',',
   'quoteChar' = '\"',
   'escapeChar' = '\\'
   )
STORED AS TEXTFILE
LOCATION 's3://location/of/csv/';
...