Я использую pyspark (Spark 2.1.1), чтобы вывести схему файла csv:
sc.read.csv('/some/file.csv', inferSchema=True)
Проблема в том, что у данных есть определенные столбцы, в которых значения имеют числовые значения, начиная с 0, и им нужнодля сохранения в виде строки, чтобы я не потерял 0.
|string_int| true_int|
| 001| 625|
| 321| 123|
inferSchema
будет интерпретировать string_int
как целое число и будет обрезать 0.Есть ли способ изменить логику так, чтобы при наличии числового значения, начинающегося с 0, эти столбцы выводились в виде строки?
Я знаю, что могу указать схему при чтении, но цельэтот код должен интерпретировать схему CSV.