Dataprep импортирует файлы с разным количеством столбцов в набор данных - PullRequest
1 голос
/ 23 апреля 2019

Я пытаюсь создать параметризованный набор данных, который импортирует файлы из GCS и помещает их друг под другом.Все это прекрасно работает (Импорт данных> Параметризация).

Чтобы получить немного контекста, я каждый день сохраняю файл .csv с другим именем, относящимся к этой дате.

Теперь это происходитчто мой провайдер добавил новый файл с прошлого месяца в файлы.Это означает, что файлы до этой даты имеют 8 столбцов , тогда как с этой даты 9 столбцов .

Однако при параметризации Dataprep учитывает только те столбцы, которыесовпадают (таким образом, 8 столбцов * только 1012 *).В идеале я хотел бы получить пустые наблюдения для строк, поступающих из файлов, в которых не было этого нового столбца.

Как этого достичь?

1 Ответ

3 голосов
/ 23 апреля 2019

Параметризованные наборы данных работают только с фиксированной схемой, как указано в документации :

Избегайте создания наборов данных с параметрами, в которых отдельные файлы или таблицы имеют разные схемы.

Эта фиксированная схема создается с использованием одного из файлов, найденных при создании набора данных с параметрами.

Если схема изменилась, вы можете « обновить », отредактировав набор данных с параметрами и нажав «Сохранить». Если все соответствующие файлы содержат 9 столбцов, теперь вы должны увидеть 9 столбцов в преобразователе.

...