Как читать файл без UTF8 с помощью newAPIHadoopFile в pyspark? - PullRequest
0 голосов
/ 05 мая 2020

Записи разделяются специальными символами, такими как «[SEP]», поэтому мне нужен newAPIHadoopFile, однако поля в записи содержат байты, отличные от utf8, например, как двоичные данные. Я заметил, что newAPIHadoopFile преобразует каждый символ в юникод, как это ссылка говорит, что такое преобразование повредит структуру двоичных данных, поэтому мне интересно, существуют ли способы избежать этого преобразования юникода, такого как textFile с use_unicode = Ложный параметр в pyspark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...