Question

Невозможно различить типы данных, пока я выполняю профилирование для файла csv, Отдавая все поля в виде только строки

Я попробовал приведенный ниже код

rdd = sc.textFile(file)
header = rdd.first()
rdd = rdd.filter(lambda x: x != header)
rdd1 = rdd.mapPartitions(lambda x: csv.reader(x))
spark_df = rdd1.toDF(header.split(','))

После завершения профилированиядля файла CSV я получаю все поля только строки, не могу определить как числовые, дата

Chinmay Bhoir · Answer 1 · 17 мая 2019

Функция textFile() не поддерживает вывод схемы.Если вы читаете из структурированного источника (такого как csv), используйте вместо этого sc.read.csv, который поддерживает вывод схемы.Ваш код будет:

df = sc.read.option("header", "true").option("inferSchema", "true").csv(file)

Не идентифицируя все типы данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Не идентифицируя все типы данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов