Разбор Windows CSV на Linux в Apache Spark - PullRequest
0 голосов
/ 03 февраля 2019

Я пытаюсь проанализировать CSV-файл, полученный с компьютера с Windows, на компьютере с Linux, используя Apache Spark, но выделенные символы не распознаются ...

Dataset<Row> df = spark
    .read()
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .load("file.csv");

Ответы [ 2 ]

0 голосов
/ 04 февраля 2019

Другой способ - запустить команду dos2unix для файла из Terminal после его переноса в linux.

dos2unix <file_name>

Это обеспечитсимволы возврата каретки должны быть удалены из файла, и он станет дружественным к Linux.

0 голосов
/ 03 февраля 2019

Похоже, ты почти у цели.Попробуйте:

Dataset<Row> df = spark
    .read()
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .option("encoding", "cp1252")
    .load("file.csv");

Вы можете указать encoding в качестве опции.Для Windows это cp1252.

...