Как читать - с pyspark от csv - PullRequest
       47

Как читать - с pyspark от csv

0 голосов
/ 13 января 2020

Я пытаюсь прочитать не-Ascii символы из csv в pysaprk, в частности, csv содержит названия стран на испанском sh, поэтому у меня есть ESPAÑA (ИСПАНИЯ на испанском sh), но он читает ESPA�OLA

это код, который я использую:

df = sqlContext.read.csv("path", sep=",", header=True ) 

Я не могу найти все кодировки, которые sqlContext.read принимает, я пытался использовать latin-1, но я получаю сообщение о том, что оно не поддерживается

1 Ответ

0 голосов
/ 13 января 2020

Есть ли способ преобразовать ваш файл в кодировку UTF-8 перед загрузкой его с помощью read.csv ()?

Другой, возможно, связанный вопрос: Как проанализировать CSV файл с кодировкой UTF-8?

...