Как вручную управлять интерпретацией схемы данных - PullRequest
0 голосов
/ 14 мая 2019

Когда я экспортирую общедоступные данные о погоде из https://www1.ncdc.noaa.gov/pub/data/uscrn/products/subhourly01/2017/CRNS0101-05-2017-TX_Austin_33_NW.txt,, как только солнечная радиация> 9, все мои данные для оставшихся столбцов объединяются в один столбец, как показано ниже. Я попытался загрузить как TXT и CSV, и проблема все еще существует в Excel, Sheets и Dataprep.

Почему это происходит?

Есть ли программный способ исправить это так, чтобы данные заполнялись как предполагалось, с 1 значением на столбец?

CSV columns

1 Ответ

1 голос
/ 16 мая 2019

Вероятно, потому что исходная структура данных не обнаружена правильно.Это может произойти, если первые строки вашего набора данных имеют структуру, отличную от остальных строк.

Чтобы решить эту проблему в Dataprep, вы можете указать, как должен быть структурирован набор данных, выполнив следующие действия:

  1. Перейти к представлению потока
  2. Щелкните правой кнопкой мыши на наборе данных и выберите «удалить структуру ...» remove structure...
  3. Открыть рецепт
  4. Вставить шаг разделения строки:
    • splitrows col: column1 on: '\n'
  5. Разбить столбец с помощью регулярного выражения пробела (например, /\s+/)
    • splitpatterns col: column1 type: on on: /\s+/ limit: 22

(вы можете скопировать и вставить следующую команду в поле поиска при создании нового шага)

Вот что выдолжен получить: recipe

Примечание: также возможно предотвратить первоначальное обнаружение структуры при импорте набора данных.См. https://cloud.google.com/dataprep/docs/html/Remove-Initial-Structure_136154971

detect initial structure - unchecked

...