Определение языка документа PDF - PullRequest
2 голосов
/ 31 марта 2012

Есть ли способ получить язык текста документа PDF?

Пример: Допустим, у меня есть какой-то документ PDF на неизвестном мне языке, есть ли инструмент, который дает мне возможность автоматически получать язык документа PDFи сохранить (или ECHO) название языка в файле?

С уважением, Владимир

Ответы [ 3 ]

2 голосов
/ 31 марта 2012

В основном нет.В PDF-файле нет ничего, что могло бы дать вам информацию о языке, и, конечно, нет ничего простого, что можно было бы извлечь из файла, который мог бы помочь.

Если файл использует CIDfonts, то связанный CMap может дает подсказку по ключу Ordering в CIDSystemInfo, но часто это просто вариант 'Identity'.

Если шрифты (CID или обычный) содержат CMAP ToUnicode (многие делают, но этоэто не является обязательным требованием) тогда вы можете вывести язык из значений Unicode.

0 голосов
/ 01 апреля 2012

Если вы извлекаете текст из PDF, вы можете использовать Google Translate API v2 для определения языка. Хотя это платный веб-сервис.

0 голосов
/ 31 марта 2012

ОК, я нашел несколько полезных ссылок, это лучше, чем ничего: Пример C #: http://www.eggheadcafe.com/community/csharp/2/10351962/how-to-recogonise-that-data-written-in-pdf-or-doc--is-english-or-not.aspx

Java: http://www.slideshare.net/shuyo/language-detection-library-for-java

Онлайн (Интернет): http://whatlanguageisthis.com/

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...