Python: проблемы с преобразованием файла .txt с символами Юникода - PullRequest
0 голосов
/ 16 июня 2020

У меня есть большой raw_data.txt файл с данными твиттера.
Например, короткий файл raw_data.txt с двумя твитами будет выглядеть так:

Won the match #getin . Plus, tomorrow is a very busy day, with Awareness Day\u2019s and debates. Gulp. Debates...
I\u2019m sorry\u002c I Heart Paris is no longer available at the Rockwell branch!

Я хочу прочитать этот файл с символами Unicode и сохранить данные в новом output.txt в следующем формат:

Won the match #getin . Plus, tomorrow is a very busy day, with Awareness Day’s and debates. Gulp. Debates...
I’m sorry, I Heart Paris is no longer available at the Rockwell branch!

В настоящее время я получаю точную строку в кодировке utf-8. Я много чего пробовал безуспешно (кодировки-расшифровки).

Я использую следующий код:

f = open('raw_data.txt', "r")
output_file = open('tweets-cleaned.txt', 'w')
for line in f:
  # encode/decode
  # text = line.encode.....decode....
  # finish encode/decode
  output_file.write(f'{text}\r\n')

output_file.close()
f.close()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...