Я довольно новичок в Python, поэтому мой вопрос может быть глупым, но, несмотря на то, что, прочитав множество тем, я не нашел ответа на свой вопрос.
У меня есть смешанный исходный документ, который содержит HTML, XML, латекс и другие текстовые форматы и который я пытаюсь получить в формате только для латекса.
Поэтому я использовал python для распознавания различных команд как регулярных выражений и замены их соответствующей латексной командой. Пока все отлично работает.
Теперь у меня остались какие-то "юникодные" знаки Unicode, такие как греческие буквы. К сожалению, это почти все, что можно сделать вручную. Поэтому я тоже ищу способ сделать это умным способом. Есть ли способ для Python распознавать / читать их? И как мне сказать Python распознавать / читать, например, Пи написано как греческое письмо?
Минимальный пример кода, который я использую:
fh = open('SOURCE_DOCUMENT','r')
stuff = fh.read()
fh.close()
new_stuff = re.sub('READ','REPLACE',stuff)
fh = open('LATEX_DOCUMENT','w')
fh.write(new_stuff)
fh.close()
Я не уверен, является ли это важной информацией или нет, но я использую Python 2.6, работающий в Windows.
Я был бы очень рад, если бы кто-то мог дать мне подсказку, по крайней мере, где найти соответствующую информацию или как это могло бы работать. Или я совершенно не прав, и Python не может сделать эту работу ...
Большое спасибо заранее.
Cheers,
Бритт