CSV-файл и внешняя таблица с разным количеством строк - PullRequest
1 голос
/ 24 апреля 2019

Я загружаю CSV-файл в таблицу через внешнюю таблицу в кусте. CSV имеет 1000 строк. Но когда я создаю внешнюю таблицу для этого, таблица показывает 1219 строк. Помимо 1000 правильных строк, таблица имеет 219 дополнительных строк с нулевыми значениями во всех столбцах. Кто-нибудь может предложить что-нибудь, чтобы избежать лишних 219 строк? количество, которое я получаю от select count(*) from table команды в улье. Файл находится в формате hdfs.

Я уже попробовал функцию EOL из блокнота ++

Это мое заявление о создании

Create external table if not exists movie_data_sample(
    movie_rank int,
   title string,
   genre string,
   description string,
   director string,
   actor string,
   year int,
   runtime_in_minutes int,
   rating decimal(2,1),
   votes int,
   revenue_in_millions decimal(10,1),
   metascore int
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
location 'location'
tblproperties ("skip.header.line.count"="1");
...