Текст сценария телугу Ану - PullRequest
0 голосов
/ 06 января 2019

О скрипте на индийском языке, который теряет символы при копировании / вставке в браузеры

Мне нужно знать о типах символов и их преобразовании в различные поддерживаемые форматы. Мой вопрос - У меня есть текст, который набирается с помощью Anu Script Software с клавиатурой Apple. Текст, набранный с использованием Anu, также нельзя использовать в качестве входных данных в браузерах любого типа или в веб-приложении WhatsApp.

Может кто-нибудь решить эту проблему

Текст, скопированный и вставленный, выглядит следующим образом: -  

И реальный текст такой, как показано на скриншоте ниже: -

Это изображение показывает один язык Индии, набранный с использованием Anu Script Software

one Language of India typed using Anu Script Software

1 Ответ

0 голосов
/ 07 января 2019

Коды символов, которые были скопированы и вставлены в вопрос, представляют собой кодовые точки Unicode в частной области использования (PUA) Unicode BMP (базовая многоязычная плоскость). Отличительные точки:

  • U+F020, U+F026, U+F02B, U+F03C, U+F054, U+F058, U+F05C, U+F06A
  • U+F073, U+F075, U+F077, U+F079, U+F080, U+F083, U+F087, U+F088
  • U+F08A, U+F090, U+F091, U+F09F, U+F0B2, U+F0BC, U+F0BF, U+F0C2
  • U+F0D2, U+F0D4, U+F0E1, U+F0E6, U+F0E7, U+F0EC, U+F0FB

Если вы перейдете на страницу Unicode Charts и введете «F020» в качестве кода, это даст вам UE000.pdf для загрузки, которая гласит:

Зона личного пользования

Диапазон: E000-F8FF

Область частного использования не содержит каких-либо назначений символов, следовательно, никакие таблицы кодов символов или списки имен не предусмотрено для этой области.

Это означает, что программное обеспечение Anu Script использует Unicode-точки, которые не имеют международного согласованного значения - BMP PUA по определению предназначен для «частного использования», и стороны, обменивающиеся данными с использованием PUA, должны договориться о том, что код точки означают и как их отображать. Они работают только с программным обеспечением, которое понимает соглашение. Вы не можете использовать эти кодовые точки, кроме как с программным обеспечением, которое понимает, что делает Anu Script Software.

Браузеры будут понимать эти кодовые точки, только если им известно, где находится соответствующий шрифт, который проникает в сложные детали и, вероятно, зависит от платформы. (Понятия не имею, с чего начать!)

Стандартный диапазон Юникода для телугу: U + 0C00..U + 0C7F .

телугу

Диапазон: 0C00–0C7F

Лучше всего, вероятно, проанализировать сходства и различия между кодовыми точками, используемыми программным обеспечением для сценариев Anu, и стандартным диапазоном Unicode для телугу, а затем использовать стандартные коды Unicode. Возможно, вам нужно понять, как сочетать акценты и различные другие аспекты телугу.


Я вообще не знаю телугу, поэтому то, что следует, может быть неточным, но я думаю, что более или менее имеет смысл то, что находится в выводе Anu Script Software:

UTF-8 bytes      PUA        Telugu  Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08  ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x82 0x80 = U+F080 ==> U+0C06  ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32  ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య  (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66  ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0x82 = U+F0C2 
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66  ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య
0xEF 0x81 0x94 = U+F054 /

Примечание 1: ГЛАВНЫЙ ЗНАК TELUGU E + 0C46 должен сочетаться с TELUGU DIGIT ZERO U + 0C66 - если я правильно определил символы, что кажется невероятным. Я перестану пытаться здесь; Я распознаю некоторые формы, сопоставляя то, что вы показываете на изображении, со страницей диаграммы Unicode, но я не уверен в соответствии с точками кода PUA.

Вы должны быть в состоянии получить соответствующую информацию от людей, предоставивших Anu Script Software.

...