Какой код страницы был использован для кодирования этого документа DOC? - PullRequest
0 голосов
/ 03 марта 2010

Я получил кучу документов .DOC.Я даже не уверен, что это документы Word, но даже если они есть, мне нужно открыть и проанализировать их, например.Python для извлечения информации из них.

Проблема в том, что я не мог понять, как они были закодированы: функция преобразования UltraEdit не исправит текст независимо от того, какую кодировку я пробовал.OpenOffice 3.2 также не смог правильно отобразить содержимое (угадав Windows-1252).

Вот пример, в котором надеются, что кто-то знает, какой это код страницы:

"lÕAssemblŽe gŽnŽrale" вместо "l'Assembléegénérale "

Спасибо за любой совет.

Ответы [ 2 ]

0 голосов
/ 03 марта 2010

Запуск msword в режиме сервера дает вам ряд вариантов сценариев - я уверен, что определение кодировки будет возможно.

0 голосов
/ 03 марта 2010

Цифровая библиотека Greenstone http://www.greenstone.org/ обеспечивает довольно хорошее извлечение текста из текстовых документов, включая обнаружение кодировки.

...