Pyspark - как обработать символ '^ M' в исходном файле - PullRequest
1 голос
/ 30 марта 2020

Я читаю данные из исходного файла, и исходный файл содержит этот символ ^ M. Из-за этого искра выходит на новую линию, которую я не хочу. Как я могу справиться с этим?

Пример данных:

I | 00683041 | 000000000807698 | OK C 9800 _____ ^ M | 0001-01-01 | N | 1D11 | XMS530 | 2004-03-17 | 0001-01-01 | | 02 | 00 | 00 | 09 | N | 0001-01-01 | N | 0001-01-01 | 0001-01-01 | 9998

Я использую ниже API для чтения кода: DF2 = spark.read.option ("sep", '|'). format ("csv"). load ("file.txt")

682907 I | 00682907 | 000000000807564 | OK C 6800 _____ ^ M | 0001-01-01 | N | 1D11 | XMS544 | 2004-03-10 | 0001-01-01 | | 02 | 00 | 00 | 09 | N | 0001-01-01 | N | 0001-01-01 | 0001-01-01 | 9998

...