Вопрос:
Кто-нибудь знает, как я мог бы преобразовать это b"it\\xe2\\x80\\x99s time to eat"
в это it's time to eat
Подробнее и мой код:
Привет всем,
В настоящее время я работаю с файлом CSV, в котором полно строк с литералами UTF8, например:
b "пора \ xe2 \ x80 \ x99s поесть"
Конечная цель - получить что-то вроде этого:
пора кушать
Для этого я попытался использовать следующий код:
import pandas as pd
file_open = pd.read_csv("/Users/Downloads/tweets.csv")
file_open["text"]=file_open["text"].str.replace("b\'", "")
file_open["text"]=file_open["text"].str.encode('ascii').astype(str)
file_open["text"]=file_open["text"].str.replace("b\"", "")[:-1]
print(file_open["text"])
После запуска кода строка, которую я взял в качестве примера, распечатывается как:
пришло время поесть
Я пытался решить эту проблему
используя следующий код, чтобы открыть файл CSV:
file_open = pd.read_csv("/Users/Downloads/tweets.csv", encoding = "utf-8")
, который распечатал пример строки следующим образом:
пришло время поесть
и я также попытался декодировать строки, используя это:
file_open["text"]=file_open["text"].str.decode('utf-8')
Который дал мне следующую ошибку:
AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas
Большое спасибо заранее за помощь.