Мой файл содержит несколько строк, которые имеют разную структуру. Каждый столбец распознается по позиции в зависимости от типа строки.
Например, у нас может быть такой файл:
row_type1 first_name1 last_name1 info1 info2
row_type2 last_name1 first_name1 info3 info2
row_type3info4info1last_name1first_name1
Мы знаем положение каждого столбца для каждого типа строки, мы можем использовать подстроку, чтобы получить их.
Целевым фреймом данных будет "first_name1, last_name1, info1, info2, info3, info4) без дублирования (first_name1, last_name1)
Например, info1 дублируется в первом и третьем ряду. Мне также нужно выбрать, какой я оставлю. Например, если info1 1-й строки пуста или содержит только 2 символа, я выберу info1 3-й строки.
Я использую Spark 2.2 + Scala 2.10.
Я надеюсь, что мой вопрос достаточно ясен. Спасибо за ваше время