spark.sparkContext.textFile читает файл, используя кодировку UTF-8 - PullRequest
0 голосов
/ 06 мая 2019

Я пытаюсь прочитать файл, используя spark.sparkContext.textFile. Файл в кодировке Юникод. когда я читаю файл, некоторые символы выглядят так:

2851 КУРНЫЕ ВЕНГРИЯ

2851 КУРНЫЕ ВЕНГРИЯ

как прочитать файл в rdd, указав режим кодирования.

1 Ответ

1 голос
/ 06 мая 2019

Использование SparkContext.binaryFiles() должно помочь. Вам просто нужно создать контент, указав соответствующий кодировку.

Пример ниже для ISO_8859:

val df = spark.sparkContext.binaryFiles(filePath, 12)
  .mapValues(content => new String(content.toArray(), StandardCharsets.ISO_8859_1))
  .toDF

Подробнее здесь .

...