Question

Мой CSV файл, который находится в zip-файле, содержит следующие данные:

"Potter, Jr",Harry,92.32,09/09/2018
 John,Williams,78,01/02/1992

И я читаю его с помощью spark scala csv reader.Если я использую,

.option('quote', '"')
.option('escape', '"')

, я не буду получать фиксированное количество столбцов в качестве вывода.Для строки 1 выводом будет 5, а в строке 2 - 4. Желаемый вывод должен возвращать только 4 столбца.Есть ли способ прочитать его как DF или RDD?

Спасибо, Эш

stack0114106 · Answer 1 · 09 октября 2018

Проверьте это.

  val df = spark.read.csv("in/potter.txt").toDF("fname","lname","value","dt")
  df.show()

+----------+--------+-----+----------+
|     fname|   lname|value|        dt|
+----------+--------+-----+----------+
|Potter, Jr|   Harry|92.32|09/09/2018|
|      John|Williams|   78|01/02/1992|
+----------+--------+-----+----------+

Constantine · Answer 2 · 09 октября 2018

Для заданных входных данных я смог прочитать данные, используя:

val input = spark.read.csv("input_file.csv")

Это дало мне Dataframe с 4 строковыми столбцами.

Spark Scala для чтения CSV с запятой в данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark Scala для чтения CSV с запятой в данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов