Загрузите поля из CSV-файла с парой ключ: значение, разделенной запятой, и порядок полей не является согласованным - PullRequest
0 голосов
/ 27 августа 2018

У меня есть CSV-файл, разделенный запятыми. Используя PySpark, я хочу загрузить некоторые поля в DataFrame путем фильтрации на основе значений определенного поля. Так что я могу использовать его позже для запросов с использованием SQL. ПРИМЕЧАНИЕ. Порядок столбцов не согласован. Некоторые столбцы отсутствуют. Я хочу сделать это согласованным, оставив этот столбец пустым.

Например:

Name=N1,Place=P1,Age=10,school=s1, class=fifth, Div=A
Name=N2,Place=P2,Age=11,school=s2, Div=A
Name=N3,Age=10,school=s1, class=fifth 

здесь я хочу загрузить поля Age, Class и Div в DataFrame, где Age = 10 или 11. Т.е.

Age=10,Class=fifth, div=A
Age=11,,div=A
Age=10,class=fourth,,

Примечание. Если столбца нет, этот столбец следует оставить пустым. В приведенном выше примере у нас нет данных для класса во 2-й строке, поэтому оставлено пустым.

Заранее спасибо

...