Преобразование хинди / арабской кодировки из PDF-файла в MOBI-файл - PullRequest
0 голосов
/ 31 июля 2011

Я создаю онлайн-сервис и совершенно не представляю, с чего начать конвертацию многоязычного PDF в MOBI. Я создал приложение для английского языка, и это довольно просто, но проблема с pdf и многобайтовыми кодировками заключается в том, что они интерпретируются как изображения, что означает, что они не интерпретируются как слова в формате файла mobi.

Есть ли способ / онлайн-сервис / API / код, чтобы сделать / реализовать это? Любое приложение для Windows, которое может сделать это на основе файла, также будет хорошо ...

1 Ответ

1 голос
/ 04 августа 2011

Вам нужно будет написать свой собственный плагин для этого, так как на рынке его нет.Однако вы можете конвертировать его, используя пользовательскую карту букв, которая будет означать, что каждое изображение сначала читается программой ocr, а затем используется для поиска эквивалента utf.

...