Не идентифицируя все типы данных - PullRequest
0 голосов
/ 17 мая 2019

Невозможно различить типы данных, пока я выполняю профилирование для файла csv, Отдавая все поля в виде только строки

Я попробовал приведенный ниже код

rdd = sc.textFile(file)
header = rdd.first()
rdd = rdd.filter(lambda x: x != header)
rdd1 = rdd.mapPartitions(lambda x: csv.reader(x))
spark_df = rdd1.toDF(header.split(','))

После завершения профилированиядля файла CSV я получаю все поля только строки, не могу определить как числовые, дата

1 Ответ

1 голос
/ 17 мая 2019

Функция textFile() не поддерживает вывод схемы.Если вы читаете из структурированного источника (такого как csv), используйте вместо этого sc.read.csv, который поддерживает вывод схемы.Ваш код будет:

df = sc.read.option("header", "true").option("inferSchema", "true").csv(file)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...