Java Spark SQL - CSV Inferschema custom - PullRequest
       0

Java Spark SQL - CSV Inferschema custom

0 голосов
/ 29 декабря 2018

Я изучаю создание настраиваемой логической схемы Spark SQL CSV для определения пользовательских типов данных (тех, которые не идентифицированы с опцией inferschema).Я использую StringIndexer, чтобы получить уникальные категориальные значения для идентификации пользовательских типов данных.

String[] categoricalStringValues = new StringIndexer().setInputCol(columnName).fit(dataframe).labels();

// Code to identify/guess the most likely custom datatype
// some examples: currency ($12.00), percent (24.05%) etc

Процесс мучительно медленный.Я нашел CSVInferSchema в коде Scala.Есть ли способ, с помощью которого этот класс можно вызывать, использовать или интерпретировать для разработки кода для идентификации пользовательских типов данных?

CSVInferSchema.scala

DataTypes

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...