Pandas разрушение строк и предотвращение правильного чтения файла в Google Data Studio - PullRequest
0 голосов
/ 30 мая 2020

У меня есть большой фрейм данных, который я отправляю в csv, используя pandas.to_csv() Когда я смотрю на использование print, он кажется нормальным:

print(df.name[160])
--> ALEXANDRE SILVA FARINAZZO

print(df.name[161])
--> ARCHANGELA GABRIELA PRATI FAVARO

Когда я отправляю его в csv и открываю в Excel I обратите внимание, что Pandas при использовании to_csv разбивает некоторые строки:

enter image description here

Я думал, что это может быть что-то с Excel, но когда я импортирую его в Google Data Studio (без сохранения или чего-то еще), это именно те строки, которые c я получаю:

enter image description here

Другие проблемы c строк следуйте той же схеме проблемы. Есть ли способ избежать этого? Почему это происходит?

EDIT

Следуя предложению @Quang Hoang, я включил sep = '\ t' в предложение to_csv. Проблема переместилась. По-видимому, Google Data Studio не распознает '\ t' как разделитель.

enter image description here

EDIT 2

Пытался удалить все запятые в файле, используя df['column'].str.replace(",",""), и, видимо, запятые не проблема. У меня снова первая проблема:

enter image description here

1 Ответ

0 голосов
/ 30 мая 2020

Я решил это. Собственно было две проблемы:

Проблема а) В некоторых столбцах было несколько скрытых "\n". Пришлось сделать print(repr(string)), чтобы узнать это, а затем str.replace('\n',"")

Проблема b) Я заметил, что в некоторых строках была проблема с ячейками с очень длинными строками при загрузке в Студия данных Google. Не уверен, что вызвало это, но я попытался сократить некоторые столбцы с большим количеством символов с помощью df['column'].loc[df['column'].str.len() > 1000] = df['column'].str[:1000], и это решило проблему. Не идеально, потому что я пропустил некоторые данные, но работал.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...