У меня есть файл с данными, как показано ниже
"MK-IND", "MK-CO", "MK-CATG", "MK-PNB" - Названия столбцов
| M |, | 6М |, | 01,05 |, | 23 | - значения для столбцов (запись 1 / строка 1)
| N |, | 6N |, | 02,05 |, | 26 | - значения для столбцов (запись 2 / строка 2)
Я хотел бы передать этот файл и перейти в местоположение hdfs в формате avro, удалив все разделители ("", || и запятую).
но, к сожалению, я не смог этого добиться, может кто-нибудь подсказать по этому поводу.
stream create - имя теста - определение "file --dir = --outputType = text / plain | hdfs-dataset --fsUri =" --deploy
когда я даю эту команду, она воспринимает всю мою полезную нагрузку как строку, но мне нужно, чтобы она обрабатывала запись полезной нагрузки по записи или построчно без каких-либо разделителей.
Я использую набор данных hdfs, потому что его формат по умолчанию - avro.