Я изучаю создание настраиваемой логической схемы Spark SQL CSV
для определения пользовательских типов данных (тех, которые не идентифицированы с опцией inferschema
).Я использую StringIndexer
, чтобы получить уникальные категориальные значения для идентификации пользовательских типов данных.
String[] categoricalStringValues = new StringIndexer().setInputCol(columnName).fit(dataframe).labels();
// Code to identify/guess the most likely custom datatype
// some examples: currency ($12.00), percent (24.05%) etc
Процесс мучительно медленный.Я нашел CSVInferSchema
в коде Scala.Есть ли способ, с помощью которого этот класс можно вызывать, использовать или интерпретировать для разработки кода для идентификации пользовательских типов данных?
CSVInferSchema.scala
DataTypes