Создание схемы Hive в PySpark - PullRequest
0 голосов
/ 08 мая 2019

Синтаксис для создания схемы в PySpark.

data.csv
id,name
1,sam
2,smith
val schema = new StructType().add("id", IntType).add("name", StringType)
val ds = spark.read.schema(schema).option("header", "true").csv("data.csv")
ds.show

1 Ответ

1 голос
/ 08 мая 2019

определить StructType с помощью StructField (name, dataType, nullable = True)

из pyspark.sql.types вы можете импортировать типы данных

from pyspark.sql.types import StructType, StructField, IntegerType, StringType,FloatType,BooleanType
schema = StructType([
    StructField("col_a", StringType(), True),
    StructField("col_b", IntegerType(), True),
    StructField("col_c", FloatType(), True),
    StructField("col_d", BooleanType(), True)
])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...