Искра - последовательные разделители труб, читаемые как один - PullRequest
0 голосов
/ 27 февраля 2020

У меня есть файл со столбцами с пустыми строками, такими как:

1|2|abc||||random|12|||

1|2||||random|12|||151|

Считывание этого в искре с параметром делимера, установленным на |, последовательные каналы читаются как один | и данные смещаются влево, или в некоторых случаях происходит сбой вставки.

Я нашел следующую соответствующую ссылку, но ничего о искре. https://kb.iu.edu/d/bcjf

Как правильно прочитать такой файл в spark?

1 Ответ

0 голосов
/ 27 февраля 2020

Убедитесь, что вы читаете файл в формате csv и задаете опцию разделителя как "|".

Example:

spark.read.option("delimiter","|").format("csv").load("t.txt").show()
+---+---+----+----+----+------+------+----+----+----+----+
|_c0|_c1| _c2| _c3| _c4|   _c5|   _c6| _c7| _c8| _c9|_c10|
+---+---+----+----+----+------+------+----+----+----+----+
|  1|  2| abc|null|null|  null|random|  12|null|null|null|
|  1|  2|null|null|null|random|    12|null|null| 151|null|
+---+---+----+----+----+------+------+----+----+----+----+

Это не Кажется, порядок столбцов отсутствует!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...