Использование Python для перевода японского на английский - PullRequest
0 голосов
/ 18 февраля 2012

Я использую Python для написания некоторых скриптов, которые объединяют две системы.Система сканирует почтовые ящики и ищет определенную строку темы, а затем анализирует информацию из электронного письма.Одним из элементов, которые я ищу, является HTML-ссылка, которую я затем использую Curl, чтобы записать HTML-код в текстовый файл в текстовом формате.

У меня вопрос, если текст в письме на японском,Есть ли в Python модули, которые будут автоматически преобразовывать этот текст в английский?Или у меня есть конвертировать в строку в Unicode, а затем декодировать это?

Вот пример того, что я вижу.Когда я использую curl для извлечения текста из URL:

USB Host Stack 処理において解放されたメモリを不正に使用している

Когда я делаю простой re.match, чтобы взять строку и записать ее в файл, получим следующее:

USB Host Stack æQtk0J0D0f0ã‰>eU0Œ0_0á0â0ê0’0Nckk0O(uW0f0D0‹0

Я также получаю следующее, когда беру письмо с помощью модуля электронной почты

>>> emailMessage.get_payload()
USB Host Stack =E5=87=A6=E7=90=86=E3=81=AB=E3=81=8A=E3=81=84=E3=81=A6=E8=A7=
=A3=E6=94=BE=E3=81=95=E3=82=8C=E3=81=9F=E3=83=A1=E3=83=A2=E3=83=AA=E3=82=92=
=E4=B8=8D=E6=AD=A3=E3=81=AB=E4=BD=BF=E7=94=A8=E3=81=97=E3=81=A6=E3=81=84=E3=
=82=8B

Итак, я думаю, что мой реальный вопрос заключается в том, какие шаги я должен предпринять, чтобы заставить его перейти на английский правильно.Мне бы очень хотелось взять первые символы японского алфавита и преобразовать их в английский.

1 Ответ

0 голосов
/ 18 февраля 2012

Перевод на естественный язык - очень сложная проблема, как писали другие.Так что посмотрите на отправку строк для перевода в службу, например, Google Translate, которая переведет их для вас (плохо, но лучше, чем ничего) и отправит их обратно.

Следующая ссылка SO показывает один из способов: перевести URL с помощью google translate из скрипта python

Прежде чем вы решите эту проблему, вы должны разобраться с проблемами кодирования (unicode, кодирование и т. д.), чтобы вы могли читать и писать текст, не повреждая его.

...