Символы Unicode в этих строках обозначены как «ВПРАВО ВПРАВО».
(код \ u202b) и 'ФОРМАТИРОВАНИЕ POP НАПРАВЛЕНИЯ' (код \ u202c) -
они используются в тексте, чтобы указать, что включенный текст должен быть представлен
справа налево вместо западного слева направо.
Теперь эти символы включены в качестве подсказок для приложения, отображающего текст, вместо того, чтобы фактически выполнять реверсирование текста - так что они, вероятно, могут быть удалены без ущерба для отображаемого текста.
Теперь это сайт вопросов и ответов по программированию, но вы не указали какой-либо язык программирования, с которым вы знакомы - достаточно хотя бы для запуска программы. Поэтому очень трудно понять, как дать подходящий вам ответ.
Python можно использовать для создания небольшой программы для фильтрации таких символов из файла, но я не хочу писать полноценную программу с графическим интерфейсом или веб-приложение, которое вы могли бы запустить здесь просто в качестве ответа здесь.
Программа, которая может работать из командной строки, просто отфильтровывая несколько символов, - это другое дело - это всего лишь несколько строк кода.
Вы должны сохранить следующий список в виде файла с именем, скажем, «fixsubtitles.py», и с терминалом («cmd», если вы работаете в Windows) введите python3 fixsubtitles.py \path\to\subtitlefile.txt
и нажмите enter.
Это, конечно же, после установки Python3 runtime с http://python.org
(если вы используете Mac или Linux, который уже предустановлен)
import sys
from pathlib import Path
encoding = "utf-8"
remove_set = str.maketrans("\u202b\u202c")
if len(sys.argv < 2):
print("Usage: python3 fixsubtitles.py [filename]", file=sys.stderr)
exit(1)
path = Path(sys.argv[1])
data = path.read_text(encoding=encoding)
path.write_text(data.translate("", "", remove_set), encoding=encoding)
print("Done")
Вам может потребоваться настроить кодировку - поскольку Windows не всегда использует utf-8 (файлы могут быть, например, «cp1256»), если при запуске программы выдается ошибка Unicode, попробуйте использовать ее вместо «utf». -8 "), и, возможно, добавьте больше символов в набор символов, которые нужно удалить - инструмент, который вы указали в вопросе, должен показать вам другие такие символы, если таковые имеются. Помимо этого, программа выше должна работать