Я использую следующее для чтения файла csv как фрейма данных в pyspark
DF=spark.read.format('csv').option("header", "true").load("data.csv")
Для большинства файлов он работает идеально, но в некоторых я получаю ошибки.
ожидаемый фрейм данных
id name code remarks code2 code3
1001 abc 123 1. this is remark 1 12 1
2. this is remark 2
1002 def 234 no remarks 23 2
неправильный фрейм данных
id name code remarks code2 code3
1001 abc 123 1.this is remark 1 null null
2.this is remark 2 12 1 null null null
1002 def 234 no remarks 23 2
Обратите внимание, что исходные данные имеют много столбцов. Поэтому я хочу избежать предоставления пользовательской схемы. Если я открою файл в MS Excel, у него не будет этой проблемы.
Как я могу исправить эту проблему, чтобы получить ожидаемый фрейм данных?