Я пытаюсь импортировать данные из CSV в Pandas DataFrame
Формат моих данных в Excel CSV выглядит следующим образом:
2020-01-03 23: 59: 59, b'текстовый текстовый текст \ xe2 \ x80 \ x93 \ xf0 \ x9f \ x87 \ xa8 \ xf0 \ x9f \ x87 \ xb3 ', 1213248673792102400
I хотите импортировать данные в Pandas фрейм данных, имеющий 3 столбца, с декодируемыми элементами, такими как \ xe2 \ x80 \ x93 .
Появляется проблема когда я использую pd.import_csv. Когда я не указываю dtype, , второй столбец интерпретируется как строка в точном виде, как в приведенном выше примере . Кроме того, нет возможности использовать .decode ('utf-8') в строке. Когда я использую кодировку в pd.read_csv или позже в процессе, я получаю:
b "b'text text text \ xe2 \ x80 \ x93 \ xf0 \ x9f \ x87 \ xa8 \ xf0 \ x9f \ x87 \ xb3 '"
То же самое верно, если я указываю байты dtype.
Тем не менее, , если я присваиваю значение b'text текстовый текст \ xe2 \ x80 \ x93 \ xf0 \ x9f \ x87 \ xa8 \ xf0 \ x9f \ x87 \ xb3 ' в переменную вручную , это интерпретируется как байты, допускающие .decode () и все правильно.
Меня больше всего интересует второй (1) столбец, потому что моя работа связана к анализу настроений.
Есть ли шанс, что вы знаете, как я могу преодолеть эту проблему? Он не должен быть ограничен Python, так как я могу подготовить данные в любом случае, просто для того, чтобы в какой-то момент они были правильно интерпретированы Python. К сожалению, я не могу позволить себе собрать данные снова, слишком большие и слишком много времени (почти 800 тыс. Записей)
Большое спасибо за вашу помощь!