Вероятно, потому что исходная структура данных не обнаружена правильно.Это может произойти, если первые строки вашего набора данных имеют структуру, отличную от остальных строк.
Чтобы решить эту проблему в Dataprep, вы можете указать, как должен быть структурирован набор данных, выполнив следующие действия:
- Перейти к представлению потока
- Щелкните правой кнопкой мыши на наборе данных и выберите «удалить структуру ...»
- Открыть рецепт
- Вставить шаг разделения строки:
splitrows col: column1 on: '\n'
- Разбить столбец с помощью регулярного выражения пробела (например,
/\s+/
) splitpatterns col: column1 type: on on: /\s+/ limit: 22
(вы можете скопировать и вставить следующую команду в поле поиска при создании нового шага)
Вот что выдолжен получить:
Примечание: также возможно предотвратить первоначальное обнаружение структуры при импорте набора данных.См. https://cloud.google.com/dataprep/docs/html/Remove-Initial-Structure_136154971