Создание DataFrame из RDD с указанием DateType () в схеме - PullRequest
2 голосов
/ 07 марта 2019

Я создаю DataFrame из RDD, и одним из значений является date.Я не знаю, как указать DateType() в схеме.

Позвольте мне проиллюстрировать имеющуюся проблему -

Один из способов загрузить date в DataFrame - сначала указатьэто как строка и преобразование его в date с использованием функции to_date () .

from pyspark.sql.types import Row, StructType, StructField, StringType, IntegerType, DateType
from pyspark.sql.functions import col, to_date
values=sc.parallelize([(3,'2012-02-02'),(5,'2018-08-08')])
rdd= values.map(lambda t: Row(A=t[0],date=t[1]))

# Importing date as String in Schema
schema = StructType([StructField('A', IntegerType(), True), StructField('date', StringType(), True)])
df = sqlContext.createDataFrame(rdd, schema)

# Finally converting the string into date using to_date() function.
df = df.withColumn('date',to_date(col('date'), 'yyyy-MM-dd'))
df.show()
+---+----------+
|  A|      date|
+---+----------+
|  3|2012-02-02|
|  5|2018-08-08|
+---+----------+

df.printSchema()
root
 |-- A: integer (nullable = true)
 |-- date: date (nullable = true)

Есть ли способ, где мы могли бы использовать DateType() в schema ине нужно явно конвертировать string в date?

Как-то так -

values=sc.parallelize([(3,'2012-02-02'),(5,'2018-08-08')])
rdd= values.map(lambda t: Row(A=t[0],date=t[1]))
# Somewhere we would need to specify date format 'yyyy-MM-dd' too, don't know where though.
schema = StructType([StructField('A', DateType(), True), StructField('date', DateType(), True)])

ОБНОВЛЕНИЕ: Как предложено @ user10465355 , следующий код работает -

import datetime
schema = StructType([
  StructField('A', IntegerType(), True),
  StructField('date', DateType(), True)
])
rdd= values.map(lambda t: Row(A=t[0],date=datetime.datetime.strptime(t[1], "%Y-%m-%d")))
df = sqlContext.createDataFrame(rdd, schema)
df.show()
+---+----------+
|  A|      date|
+---+----------+
|  3|2012-02-02|
|  5|2018-08-08|
+---+----------+
df.printSchema()
root
 |-- A: integer (nullable = true)
 |-- date: date (nullable = true)

1 Ответ

4 голосов
/ 07 марта 2019

Короче говоря, схема, используемая с RDD внешнего объекта, не предназначена для такого использования - объявленные типы должны отражать реальное состояние данных, а не желаемое.

Другими словами, чтобы разрешить:

schema = StructType([
  StructField('A', IntegerType(), True),
  StructField('date', DateType(), True)
])

данные, соответствующие date полю , должны использовать datetime.date. Так, например, с вашим RDD[Tuple[int, str]]:

import datetime

spark.createDataFrame(
    # Since values from the question are just two element tuples
    # we can use mapValues to transform the "value"
    # but in general case you'll need map
    values.mapValues(datetime.date.fromisoformat),
    schema
)

Самое близкое, что вы можете получить к желаемому поведению, - это преобразовать данные (RDD[Row]) с помощью JSON reader, используя dicts

from pyspark.sql import Row

spark.read.schema(schema).json(rdd.map(Row.asDict))

или лучше явные дампы JSON:

import json
spark.read.schema(schema).json(rdd.map(Row.asDict).map(json.dumps))

но это, конечно, намного дороже, чем явное приведение, которое, кстати, легко автоматизировать в простых случаях, подобных описанному вами:

from pyspark.sql.functions import col

(spark
    .createDataFrame(values, ("a", "date"))
    .select([col(f.name).cast(f.dataType) for f in schema]))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...