Проблема: импорт закодированных данных из CSV в Pandas Data Frame - PullRequest
0 голосов
/ 21 января 2020

Я пытаюсь импортировать данные из CSV в Pandas DataFrame

Формат моих данных в Excel CSV выглядит следующим образом:

2020-01-03 23: 59: 59, b'текстовый текстовый текст \ xe2 \ x80 \ x93 \ xf0 \ x9f \ x87 \ xa8 \ xf0 \ x9f \ x87 \ xb3 ', 1213248673792102400

I хотите импортировать данные в Pandas фрейм данных, имеющий 3 столбца, с декодируемыми элементами, такими как \ xe2 \ x80 \ x93 .

Появляется проблема когда я использую pd.import_csv. Когда я не указываю dtype, , второй столбец интерпретируется как строка в точном виде, как в приведенном выше примере . Кроме того, нет возможности использовать .decode ('utf-8') в строке. Когда я использую кодировку в pd.read_csv или позже в процессе, я получаю:

b "b'text text text \ xe2 \ x80 \ x93 \ xf0 \ x9f \ x87 \ xa8 \ xf0 \ x9f \ x87 \ xb3 '"

То же самое верно, если я указываю байты dtype.

Тем не менее, , если я присваиваю значение b'text текстовый текст \ xe2 \ x80 \ x93 \ xf0 \ x9f \ x87 \ xa8 \ xf0 \ x9f \ x87 \ xb3 ' в переменную вручную , это интерпретируется как байты, допускающие .decode () и все правильно.

Меня больше всего интересует второй (1) столбец, потому что моя работа связана к анализу настроений.

Есть ли шанс, что вы знаете, как я могу преодолеть эту проблему? Он не должен быть ограничен Python, так как я могу подготовить данные в любом случае, просто для того, чтобы в какой-то момент они были правильно интерпретированы Python. К сожалению, я не могу позволить себе собрать данные снова, слишком большие и слишком много времени (почти 800 тыс. Записей)

Большое спасибо за вашу помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...