Очистите веб-страницу, которая использует собственный шрифт, используя python - PullRequest
0 голосов
/ 31 октября 2018

Я пытаюсь очистить эту веб-страницу , которая использует собственный шрифт для представления текста на санскрите. У меня есть файл ttf для шрифта, используемого на веб-странице.

Могу ли я в любом случае очистить этот сайт, используя файл ttf, и закодировать содержимое в unicode, используя Python (если нет, любой язык)?

Используемый шрифт iitmsans.ttf из http://www.acharya.gen.in:8080/fonts/iitmfonts.php

1 Ответ

0 голосов
/ 01 ноября 2018

Нет, вам, вероятно, придется немного поработать вручную, чтобы создать кодировку для Python. TTF-файл не содержит информации о сопоставлениях Unicode (он может , но это редко, и этого нет).

Глядя на шрифт в http://bluejamesbond.github.io/CharacterMap/ Я вижу много глифов деванагари, но я не знаю их имен или каких вариаций распространено или разрешено при их рисовании, поэтому я, вероятно, не могу легко найти те же глифы в Юникоде для тебя. Но я распознаю символ «ом» U + 0950 в коде символа 65 (0x41), поэтому я могу добавить первый элемент в вашу кодировку:

{
 # ...
 0x41: '\u0950',
 # ...
}

Сделайте это для всех других глифов шрифта, и у вас есть отображение, которое вы можете использовать в Python. Общее руководство приведено в документации для стандартного модуля codecs, но, вероятно, вы захотите найти примеры, такие как Пользовательский кодек Python Charmap .

Screen dump of OM glyph

...