Как использовать метод Spark hadoopFile, чтобы использовать пользовательский формат ввода с типом значения Text? - PullRequest
0 голосов
/ 14 мая 2019

Как использовать метод Spark hadoopFile, чтобы использовать пользовательский формат ввода с типом значения Text? Например OmnitureDataFileInputFormat для обработки данных Omniture Click Stream?

1 Ответ

0 голосов
/ 14 мая 2019
import org.rassee.omniture.hadoop.mapred.OmnitureDataFileInputFormat
import java.nio.charset.StandardCharsets
import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapred.InputFormat

val rddLines: RDD[String] =
  sparkSession.sparkContext.hadoopFile(
    path = path,
    inputFormatClass = classOf[OmnitureDataFileInputFormat],
    keyClass = classOf[LongWritable],
    valueClass = classOf[Text]
  )
  .map(_._2.copyBytes()).map(new String(_, StandardCharsets.UTF_8))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...