Question

Есть ли способ получить язык текста документа PDF?

Пример: Допустим, у меня есть какой-то документ PDF на неизвестном мне языке, есть ли инструмент, который дает мне возможность автоматически получать язык документа PDFи сохранить (или ECHO) название языка в файле?

С уважением, Владимир

KenS · Answer 1 · 31 марта 2012

В основном нет.В PDF-файле нет ничего, что могло бы дать вам информацию о языке, и, конечно, нет ничего простого, что можно было бы извлечь из файла, который мог бы помочь.

Если файл использует CIDfonts, то связанный CMap может дает подсказку по ключу Ordering в CIDSystemInfo, но часто это просто вариант 'Identity'.

Если шрифты (CID или обычный) содержат CMAP ToUnicode (многие делают, но этоэто не является обязательным требованием) тогда вы можете вывести язык из значений Unicode.

Matthew Strawbridge · Answer 2 · 01 апреля 2012

Если вы извлекаете текст из PDF, вы можете использовать Google Translate API v2 для определения языка. Хотя это платный веб-сервис.

Volodymyr Prysiazhniuk · Answer 3 · 31 марта 2012

ОК, я нашел несколько полезных ссылок, это лучше, чем ничего: Пример C #: http://www.eggheadcafe.com/community/csharp/2/10351962/how-to-recogonise-that-data-written-in-pdf-or-doc--is-english-or-not.aspx

Java: http://www.slideshare.net/shuyo/language-detection-library-for-java

Онлайн (Интернет): http://whatlanguageisthis.com/

Спасибо!

Определение языка документа PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Определение языка документа PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов