Как правильно читать японские символы из файла без (escape-последовательностей) значений «\ ufeff» и «\ u3000» в строках? - PullRequest
0 голосов
/ 17 июня 2020

У меня есть следующий текст на японском, который я должен разделить на строки по строкам ('\ n'). Текст называется 'so nnet .txt'

さよなら夜の教室

Как только я открываю файл и разбиваю текст на массив строк.

file = open('sonnet.txt', encoding="utf-8")
jP = file.read().split('\n')

У меня есть следующий результат в приглашении python для списка.

>>> jP
['\ufeffさよなら\u3000夜の教室',]

Есть ли способ избавиться от частей «\ ufeff» и «\ u3000» не для этого сохраненного значения, а в общие для других слов? Спасибо.

1 Ответ

0 голосов
/ 17 июня 2020

На самом деле я написал ваш код и создал sonnet.txt текстовый файл, но не получил того же результата.

Мой результат был: ['さよなら夜の教室']

Кстати, я предлагаю сделать вот так:

file = open('sonnet.txt', encoding="utf-8")
jP = file.read().replace('\ufeff', '').replace('\u3000', '').split('\n')
print(jP)

Дополнительная информация:

Устранить ошибку «\ u3000»

Символ Юникода 'IDEOGRAPHI C ПРОБЕЛ '(U + 3000)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...