Question

Мои данные в файле csv.В файле нет заголовка столбца

United States   Romania 15
United States   Croatia 1
United States   Ireland 344
Egypt   United States   15

Если я прочитал его, Spark автоматически создает имена для столбцов.

scala> val data = spark.read.csv("./data/flight-data/csv/2015-summary.csv")
data: org.apache.spark.sql.DataFrame = [_c0: string, _c1: string ... 1 more field]

Можно ли указать мои собственные именадля столбцов при чтении файла, если я не хочу использовать _c0, _c1?Например, я хочу, чтобы spark использовал DEST, ORIG и count для имен столбцов.Я не хочу добавлять строку заголовка в csv, чтобы сделать это

Md Shihab Uddin · Answer 1 · 03 февраля 2019

Лучше сначала определить схему (StructType), а затем загрузить данные CSV, используя схему.

Вот как определить схему:

import org.apache.spark.sql.types._
val schema = StructType(Array(
      StructField("DEST",StringType,true),
      StructField("ORIG",StringType,true),
      StructField("count",IntegerType,true)
    ))

Загрузить фрейм данных:

val df = spark.read.schema(schema).csv("./data/flight-data/csv/2015-summary.csv")

Надеюсь, это вам поможет.

Kaushal · Answer 2 · 03 февраля 2019

Да, вы можете, Есть способ, Вы можете нам toDF функция dataframe.

val data = spark.read.csv("./data/flight-data/csv/2015-summary.csv").toDF("DEST", "ORIG", "count")

я могу указать имена столбцов при создании DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

я могу указать имена столбцов при создании DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов