Question

Я пытаюсь прочитать не-Ascii символы из csv в pysaprk, в частности, csv содержит названия стран на испанском sh, поэтому у меня есть ESPAÑA (ИСПАНИЯ на испанском sh), но он читает ESPA�OLA

это код, который я использую:

df = sqlContext.read.csv("path", sep=",", header=True )

Я не могу найти все кодировки, которые sqlContext.read принимает, я пытался использовать latin-1, но я получаю сообщение о том, что оно не поддерживается

Adhoc · Answer 1 · 13 января 2020

Есть ли способ преобразовать ваш файл в кодировку UTF-8 перед загрузкой его с помощью read.csv ()?

Другой, возможно, связанный вопрос: Как проанализировать CSV файл с кодировкой UTF-8?

Как читать - с pyspark от csv

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как читать - с pyspark от csv

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы