Question

Я изучаю создание настраиваемой логической схемы Spark SQL CSV для определения пользовательских типов данных (тех, которые не идентифицированы с опцией inferschema).Я использую StringIndexer, чтобы получить уникальные категориальные значения для идентификации пользовательских типов данных.

String[] categoricalStringValues = new StringIndexer().setInputCol(columnName).fit(dataframe).labels();

// Code to identify/guess the most likely custom datatype
// some examples: currency ($12.00), percent (24.05%) etc

Процесс мучительно медленный.Я нашел CSVInferSchema в коде Scala.Есть ли способ, с помощью которого этот класс можно вызывать, использовать или интерпретировать для разработки кода для идентификации пользовательских типов данных?

CSVInferSchema.scala

DataTypes

Java Spark SQL - CSV Inferschema custom

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Java Spark SQL - CSV Inferschema custom

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов