Ниже мое создание таблицы и пример из моего CSV;
DROP TABLE IF EXISTS xxx.fbp;
CREATE TABLE IF NOT EXISTS xxx.fbp (id bigint, p_name string, h_name string, ufi int, city string, country string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
74905, xxx, xyz, -5420642, Город Один, Франция
74993, ххх, ZYX, -874432, Город, Германия
75729, xxx, yzx, -1284248, длинное имя города два, Франция
Затем я загружаю данные в таблицу кустов с помощью следующего запроса:
LOAD DATA
INPATH '/user/xxx/hdfs_import/fbp.csv'
INTO TABLE xxx.fbp;
Кажется, что данные просачиваются из 5-го "столбца" CSV в 6-й столбец таблицы. Итак, я вижу данные о городе в столбце моей страны.
SELECT country, count(country) from xxx.fbp group by country
+---------+------+
| country | _c1 |
| Germany | 1143 |
| City | 1 |
+---------+------+
Я не уверен, почему данные о городах иногда импортируются в столбец страны. CSV загружен из Google Sheets, и я удалил заголовок.