Я пытаюсь прочитать csv в pyspark, но проблема в том, что у него есть текстовый столбец, из-за которого в данных есть какая-то плохая строка
Этот текстовый столбец также содержит символы новой строки, из-за чего данные в следующих столбцах повреждаются
Я пытался использовать панды и использовать некоторые дополнительные параметры для загрузки моего CSV
a = pd.read_csv("Mycsvname.csv",sep = '~',quoting=csv.QUOTE_NONE, dtype = str,error_bad_lines=False, quotechar='~', lineterminator='\n' )
В пандах работает нормально, но я хочу загрузить CSV в pyspark.
Итак, есть ли подобный способ загрузить CSV-файл в pyspark со всеми вышеуказанными параметрами?