Не преобразование Unicode в Unicode, для любого шрифта! - PullRequest
0 голосов
/ 02 марта 2011

У меня есть HTML-файл с текстом, закодированным не шрифтом Unicode. Мне нужно конвертировать этот файл в Unicode. Я искал конвертор. Но большинство преобразователей работают только со списком шрифтов, а не со всеми шрифтами.

Мой шрифт очень специфический, текст написан на деванагари. У меня есть файл, у меня есть шрифт, теперь, пожалуйста, предложите мне инструмент или технику. Спасибо.

Ответы [ 2 ]

5 голосов
/ 02 марта 2011

Unicode - это не шрифты, а кодировка. Вам нужно найти конвертер, который может конвертировать ваш текст в Unicode. Какая кодировка вашего текста?

1 голос
/ 02 марта 2011

Apache Tika имеет возможность извлекать текст из PDF-файлов благодаря знанию поведения шрифта. Так что если файл на самом деле PDF, у вас есть шанс. Если у вас есть текстовый файл, полный индексов шрифтов без какой-либо конкретной кодировки, у вас впереди большая работа по программированию.

...