При создании таблицы из папки csv-файлов информация заголовка не читается.Как я могу указать, какой файл в папке использовать для заголовков? - PullRequest
0 голосов
/ 18 октября 2018

Эта проблема может быть воспроизведена на экземпляре сообщества Databricks .

Используя набор данных Airlines, существует папка с большим количеством файлов.Первый файл имеет заголовок, а остальные нет.

Этот оператор создаст таблицу с заголовками:

DROP TABLE IF EXISTS airline;
CREATE TABLE airline
USING CSV
OPTIONS (path "dbfs:/databricks-datasets/airlines/part-00000", header "true")

Этот оператор создаст таблицу без заголовков:

DROP TABLE IF EXISTS airline;
CREATE TABLE airline
USING CSV
OPTIONS (path "dbfs:/databricks-datasets/airlines/part-00001", header "true")

Этот оператор создаст таблицу без заголовков:

DROP TABLE IF EXISTS airline;
CREATE TABLE airline
USING CSV
OPTIONS (path "dbfs:/databricks-datasets/airlines/", header "true")

Есть ли способ контролировать, откуда информация заголовка читается?Существует ли какая-либо документация обо всех возможных параметрах для параметра OPTIONS?

1 Ответ

0 голосов
/ 20 октября 2018

Нет способа прочитать заголовок из одного файла, а не из других.Вы должны прочитать данные без заголовков, а затем отфильтровать строку заголовка, используя соответствующее предложение WHERE.

Нет хорошей документации для всех параметров чтения файлов с разделителями, поскольку поддержка включена в Spark 2.Икс.Для справки я все же вернусь к документам 1.x: https://github.com/databricks/spark-csv#features

...