Question

Записи разделяются специальными символами, такими как «[SEP]», поэтому мне нужен newAPIHadoopFile, однако поля в записи содержат байты, отличные от utf8, например, как двоичные данные. Я заметил, что newAPIHadoopFile преобразует каждый символ в юникод, как это ссылка говорит, что такое преобразование повредит структуру двоичных данных, поэтому мне интересно, существуют ли способы избежать этого преобразования юникода, такого как textFile с use_unicode = Ложный параметр в pyspark.

Как читать файл без UTF8 с помощью newAPIHadoopFile в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как читать файл без UTF8 с помощью newAPIHadoopFile в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы