Как использовать функцию получения экземпляра для набора данных и фильтрации данных на основе типа данных - PullRequest
0 голосов
/ 27 июня 2019

Я хочу понять, как получить функцию Instance для набора данных. у меня есть некоторый набор данных, и я хочу отобразить каждый столбец на основе этого типа данных (например, int, String и Date), если в наборе данных получен неправильный тип, тогда я хочу отфильтровать эту строку.

У меня есть входной набор данных, и там есть тип (Int, String, String, Date)

import org.apache.spark.sql.types._
case class Test(ID:Int,AirName:String,Place:String,TakeoffDate:String)
val df= myFile.map(x => x.split(",") ).map( x=> Test(x(0).toInt,x(1),x(2),x(3)) ).toDF()

+-----+-------+-----+-----------+
|   ID|AirName|Place|TakeoffDate|
+-----+-------+-----+-----------+
|    1|  Delta|  Aus|    1/11/18|
|    2|  Delta|     |    10/5/19|
|Three|   null|  New| 15/10/2018|
|    4| JetAir|  Aus|    11/6/15|
+-----+-------+-----+-----------+
 After Creation of dataset Expected Output Dataset1
+-----+-------+-----+-----------+
|   ID|AirName|Place|TakeoffDate|
+-----+-------+-----+-----------+
|    1|  Delta|  Aus|    1/11/18|
|    2|  Delta|     |    10/5/19|
|    4| JetAir|  Aus|    11/6/15|
+-----+-------+-----+-----------+


Dataset2
+-----+-------+-----+-----------+
|   ID|AirName|Place|TakeoffDate|
+-----+-------+-----+-----------+
|Three|   null|  New| 15/10/2018|
|    4| JetAir|  Aus|    11/6/15|
+-----+-------+-----+-----------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...