Неправильный файл с разделителями в трубе Spark - PullRequest
0 голосов
/ 18 марта 2019

Был процесс, который читает .csvs просто отлично.Нам нужно переключать разделители из-за того, как часть данных отправляется.Попытка сделать следующее изменение:

Текущий

df = spark.read.option("header", "true") \
      .option("delimiter", ",") \
      .option("inferSchema", "false") \
      .csv("file")

Предложено

df = spark.read.option("header", "true") \
      .option("delimiter", "|") \
      .option("inferSchema", "false") \
      .csv("file")

Однако это неправильно анализирует файл.Когда я вызываю .printSchema () для df,

, я вижу следующее:

root
 |-- col1,col2,col3,col4: string (nullable = true)

Кажется, что он не может проанализировать столбцы по отдельности.Я пробовал .read.csv, и некоторые другие варианты, и я сталкиваюсь с теми же проблемами, независимо от того, как я привожу данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...