Когда я группирую по столбцу, я получаю неожиданные значения из другого поля.
Вот пример данных:
https://gist.github.com/shantanuo/c8272978575b4a403596ae87f10074c7
И вот как я импортирую это:
import pandas as pd
df = pd.read_csv('s3://todel162/bigd/test.csv', header=None, escapechar='\\')
df.columns=['id', 'client', 'code', 'm_text', 'atpt', 'date']
df.groupby('id')['id'].count()
И вывод:
id
1234 1
3456 1
5432 118
report it as soon as possible" 1
Name: id, dtype: int64
В основном весь текст в 2 двойных кавычках должен быть частью одной ячейки. Например,
"this is line one
and some text on line two"
Есть ли способ правильно импортировать подобные данные (без изменения исходного файла)?