У меня есть большой raw_data.txt
файл с данными твиттера.
Например, короткий файл raw_data.txt с двумя твитами будет выглядеть так:
Won the match #getin . Plus, tomorrow is a very busy day, with Awareness Day\u2019s and debates. Gulp. Debates...
I\u2019m sorry\u002c I Heart Paris is no longer available at the Rockwell branch!
Я хочу прочитать этот файл с символами Unicode и сохранить данные в новом output.txt
в следующем формат:
Won the match #getin . Plus, tomorrow is a very busy day, with Awareness Day’s and debates. Gulp. Debates...
I’m sorry, I Heart Paris is no longer available at the Rockwell branch!
В настоящее время я получаю точную строку в кодировке utf-8. Я много чего пробовал безуспешно (кодировки-расшифровки).
Я использую следующий код:
f = open('raw_data.txt', "r")
output_file = open('tweets-cleaned.txt', 'w')
for line in f:
# encode/decode
# text = line.encode.....decode....
# finish encode/decode
output_file.write(f'{text}\r\n')
output_file.close()
f.close()