Pyspark inferSchema номера, которые начинаются с 0 - PullRequest
0 голосов
/ 11 мая 2018

Я использую pyspark (Spark 2.1.1), чтобы вывести схему файла csv:

sc.read.csv('/some/file.csv', inferSchema=True)

Проблема в том, что у данных есть определенные столбцы, в которых значения имеют числовые значения, начиная с 0, и им нужнодля сохранения в виде строки, чтобы я не потерял 0.

|string_int| true_int|
|       001|      625|
|       321|      123|

inferSchema будет интерпретировать string_int как целое число и будет обрезать 0.Есть ли способ изменить логику так, чтобы при наличии числового значения, начинающегося с 0, эти столбцы выводились в виде строки?

Я знаю, что могу указать схему при чтении, но цельэтот код должен интерпретировать схему CSV.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...